Форум русскоязычного сообщества Ubuntu


Следите за новостями русскоязычного сообщества Ubuntu в Twitter-ленте @ubuntu_ru_loco

Автор Тема: Как сейчас модно перегонять аудио в текст?  (Прочитано 122255 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн AlekseyUbuntu

  • Автор темы
  • Активист
  • *
  • Сообщений: 399
    • Просмотр профиля
Ubuntu 22.10

Есть большое количество mp3- лекций, в которых 90% лектор несет не по теме, но к счастью в них есть и немного очень нужного уникального контента. Если слушать их все подряд, то уходит слишком много времени. Поэтому появилась идея перегнать их в текст, а потом быстро- просматривая вдумчиво читать только нужные куски.

Как на данный момент в Linux системах решают вопрос конвертации аудио в текст?
« Последнее редактирование: 03 Марта 2023, 18:20:16 от AlekseyUbuntu »

Оффлайн F12

  • Администратор
  • Старожил
  • *
  • Сообщений: 4491
    • Просмотр профиля
Как на данный момент в Linux системах решают вопрос конвертации аудио в текст?
- это называется транскрибация (что ли?), если верно помню, но вот никакого достойного ПО для этого дела в Linux(как впрочем и для винды тоже) не припоминаю...  может потому, что за ненадобностью особо не интересовался, а может потому, что и вовсе нету его нормального... а собственно о самой транскрибации много доводилось слышать от коллег маководов, но тоже, всё больше, не очень лестные отзывы, в МакОси вроде и необходимое ПО есть прям в базовой комплектации, но результат без ручной правки получался никуда не годный
      ... но время идет, всё меняется
         ... вдруг сегодня всё уже работает совсем иначе, т.е. знаАачительно лучше, да и вообще, мультимедийное ПО на Маках традиционно считается более продвинутое ::)

Оффлайн AlekseyUbuntu

  • Автор темы
  • Активист
  • *
  • Сообщений: 399
    • Просмотр профиля
... но время идет, всё меняется

Вообще- то есть возможность в Гугл- документах сделать ввод с микрофона или аудио- потока, а в Windows такая возможность есть в пакете Office 365.

Я тоже думаю, что настал переломный момент: если раньше получали "мешок слов" без знаков припинания и с кучей ошибок, то сейчас нейронки умеют даже с нуля генерировать текст на заданную тему, и если их использовать в корректировке распознанного текста (где информации значительно больше, чем просто тема, а значит должно быть проще), то в спорных местах можно получить корректно подобранные слова + знаки припинания + даже разбивка на абзацы (деление на смысловые единицы).

Поэтому и спрашиваю, не изобрели ли что- то новенькое.
« Последнее редактирование: 03 Марта 2023, 20:42:05 от AlekseyUbuntu »

Оффлайн artenox

  • Любитель
  • *
  • Сообщений: 71
    • Просмотр профиля
не изобрели ли что-то новенькое
Изобрели. Vosk, например. Качество неплохое, русский поддерживается, но нет пунктуации.
Можно даже диктовать голосом. Linux тут давно обскакал винду, впрочем скорее opensource.

Оффлайн AlekseyUbuntu

  • Автор темы
  • Активист
  • *
  • Сообщений: 399
    • Просмотр профиля
Изобрели. Vosk, например. Качество неплохое, русский поддерживается, но нет пунктуации.
Можно даже диктовать голосом. Linux тут давно обскакал винду, впрочем скорее opensource.

Спасибо, но без знаков припинания / абзацев не получится быстро просматривать текст. А может есть отдельно нейронка, которая натренированна для подобной работы? Т.е. делать в 2 шага: сначала распознавание, а потом корректировка распознанной каши из слов в удобочитаемый текст.

Оффлайн faveoled

  • Участник
  • *
  • Сообщений: 179
    • Просмотр профиля
Самый крутой на данный момент OpenAI Whisper
https://github.com/openai/whisper

Оффлайн qpdb

  • Активист
  • *
  • Сообщений: 626
  • xUbuntu 22.04
    • Просмотр профиля
Спасибо, faveoled, интересная новинка❨!!!❩ изучаю… А Вы сами попробовали?
2023 Mar 05; 08:44 PM
Рекомендую ознакомиться с современной трактовкой темы „collective responsibility and the state”, а также темами сопряжёнными с этой… В современных реалиях это может оказаться полезным…

Оффлайн jurganov

  • Старожил
  • *
  • Сообщений: 1429
    • Просмотр профиля
ПО русски это называется расшифровка аудио.

а на ютубе каким образом пишут субтитры, да ещё переводят сразу? какой то сервис же имеется...
ГуглоДок??
https://timeweb.com/ru/community/articles/luchshie-servisy-dlya-rasshifrovki-audio-v-tekst

вроде бы несильно плохо работал https://speechpad.ru/

Оффлайн Xmakc

  • Любитель
  • *
  • Сообщений: 51
    • Просмотр профиля
Вот, фейсбук выложил нейронку, которая как озвучивает текст, так и траскрибирует аудио.
https://github.com/facebookresearch/fairseq/tree/main/examples/mms

 

Страница сгенерирована за 0.08 секунд. Запросов: 25.