Автор Тема: Как сейчас модно перегонять аудио в текст? (Прочитано 125307 раз)

AlekseyUbuntu · « : 03 Марта 2023, 18:13:00 »

Ubuntu 22.10

Есть большое количество mp3- лекций, в которых 90% лектор несет не по теме, но к счастью в них есть и немного очень нужного уникального контента. Если слушать их все подряд, то уходит слишком много времени. Поэтому появилась идея перегнать их в текст, а потом быстро- просматривая вдумчиво читать только нужные куски.

Как на данный момент в Linux системах решают вопрос конвертации аудио в текст?

F12 · « **Ответ #1 :** 03 Марта 2023, 20:23:21 »

Цитата: AlekseyUbuntu от 03 Марта 2023, 18:13:00

Как на данный момент в Linux системах решают вопрос конвертации аудио в текст?

- это называется транскрибация (что ли?), если верно помню, но вот никакого достойного ПО для этого дела в Linux(как впрочем и для винды тоже) не припоминаю... может потому, что за ненадобностью особо не интересовался, а может потому, что и вовсе нету его нормального... а собственно о самой транскрибации много доводилось слышать от коллег маководов, но тоже, всё больше, не очень лестные отзывы, в МакОси вроде и необходимое ПО есть прям в базовой комплектации, но результат без ручной правки получался никуда не годный
... но время идет, всё меняется
... вдруг сегодня всё уже работает совсем иначе, т.е. знаАачительно лучше, да и вообще, мультимедийное ПО на Маках традиционно считается более продвинутое

AlekseyUbuntu · « **Ответ #2 :** 03 Марта 2023, 20:40:31 »

Цитата: F12 от 03 Марта 2023, 20:23:21

... но время идет, всё меняется

Вообще- то есть возможность в Гугл- документах сделать ввод с микрофона или аудио- потока, а в Windows такая возможность есть в пакете Office 365.

Я тоже думаю, что настал переломный момент: если раньше получали "мешок слов" без знаков припинания и с кучей ошибок, то сейчас нейронки умеют даже с нуля генерировать текст на заданную тему, и если их использовать в корректировке распознанного текста (где информации значительно больше, чем просто тема, а значит должно быть проще), то в спорных местах можно получить корректно подобранные слова + знаки припинания + даже разбивка на абзацы (деление на смысловые единицы).

Поэтому и спрашиваю, не изобрели ли что- то новенькое.

artenox · « **Ответ #3 :** 04 Марта 2023, 08:05:43 »

Цитата: AlekseyUbuntu от 03 Марта 2023, 20:40:31

не изобрели ли что-то новенькое

Изобрели. Vosk, например. Качество неплохое, русский поддерживается, но нет пунктуации.
Можно даже диктовать голосом. Linux тут давно обскакал винду, впрочем скорее opensource.

AlekseyUbuntu · « **Ответ #4 :** 04 Марта 2023, 09:11:35 »

Цитата: artenox от 04 Марта 2023, 08:05:43

Изобрели. Vosk, например. Качество неплохое, русский поддерживается, но нет пунктуации.
Можно даже диктовать голосом. Linux тут давно обскакал винду, впрочем скорее opensource.

Спасибо, но без знаков припинания / абзацев не получится быстро просматривать текст. А может есть отдельно нейронка, которая натренированна для подобной работы? Т.е. делать в 2 шага: сначала распознавание, а потом корректировка распознанной каши из слов в удобочитаемый текст.

faveoled · « **Ответ #5 :** 05 Марта 2023, 20:33:19 »

Самый крутой на данный момент OpenAI Whisper
https://github.com/openai/whisper

qpdb · « **Ответ #6 :** 06 Марта 2023, 04:44:08 »

Спасибо, faveoled, интересная новинка❨!!!❩ изучаю… А Вы сами попробовали?
2023 Mar 05; 08:44 PM

jurganov · « **Ответ #7 :** 06 Марта 2023, 06:01:24 »

ПО русски это называется расшифровка аудио.

а на ютубе каким образом пишут субтитры, да ещё переводят сразу? какой то сервис же имеется...
ГуглоДок??
https://timeweb.com/ru/community/articles/luchshie-servisy-dlya-rasshifrovki-audio-v-tekst

вроде бы несильно плохо работал https://speechpad.ru/

Xmakc · « **Ответ #8 :** 27 Мая 2023, 19:36:21 »

Вот, фейсбук выложил нейронку, которая как озвучивает текст, так и траскрибирует аудио.
https://github.com/facebookresearch/fairseq/tree/main/examples/mms

Pit74 · « **Ответ #9 :** 17 Октября 2024, 10:18:25 »

А почему не воспользоваться онлайн-сервисами коих сейчас много https://speech2text.ru/ или https://teamlogs.ru/

jurganov · « **Ответ #10 :** 18 Октября 2024, 09:48:40 »

Цитата: Pit74 от 17 Октября 2024, 10:18:25

А почему не воспользоваться онлайн-сервисами коих СЕЙЧАС много

Ты уверен, что во времена, когда был вопрос, они были?

Примерно так же - ну зачем в 18 веке крестьяне сохой на лошади пахали, когда трактором и плугом удобнее?

Форум русскоязычного сообщества Ubuntu

Автор Тема: Как сейчас модно перегонять аудио в текст? (Прочитано 125307 раз)

AlekseyUbuntu

Как сейчас модно перегонять аудио в текст?

F12

Re: Как сейчас модно перегонять аудио в текст?

AlekseyUbuntu

Re: Как сейчас модно перегонять аудио в текст?

artenox

Re: Как сейчас модно перегонять аудио в текст?

AlekseyUbuntu

Re: Как сейчас модно перегонять аудио в текст?

faveoled

Re: Как сейчас модно перегонять аудио в текст?

qpdb

Re: Как сейчас модно перегонять аудио в текст?

jurganov

Re: Как сейчас модно перегонять аудио в текст?

Xmakc

Re: Как сейчас модно перегонять аудио в текст?

Pit74

Re: Как сейчас модно перегонять аудио в текст?

jurganov

Re: Как сейчас модно перегонять аудио в текст?