Автор Тема: Что сегодня лучше использовать в качестве OCR и читалок ? (Прочитано 1047 раз)

AlekseyUbuntu · « : 31 Июля 2018, 10:08:32 »

Kubuntu 18.04

В инете (и на нашем форуме) только инфа от 2014 года. Думаю за это время многое поменялось. Может кто- то поделиться текущим состоянием дел в области OCR, чтобы не перелопачивать:
1) движки, занимаясь сравнением качества распознования
2) GUI- обертки, чтобы понять кто сделал удобнее

Сейчас мне надо распознавать только английский, но информация по русскому тоже интереса.

Я OCR использую в связке с автоматическими читалками (чтобы глазки не уставали), поэтому также интересно что сегодня по- православному использовать в этом направлении.

Заранее спасибо, за подсказки!

Sirrke · « **Ответ #1 :** 31 Июля 2018, 10:16:46 »

Да все, в общем-то, тоже самое... GImageReader + Tesseract. Работает нормально.

AlekseyUbuntu · « **Ответ #2 :** 31 Июля 2018, 10:30:37 »

Цитата: Sirrke от 31 Июля 2018, 10:16:46

Да все, в общем-то, тоже самое... GImageReader + Tesseract. Работает нормально.

Спасибо за направление!

А для "text to speech" что сегодня актуально?

andytux · « **Ответ #3 :** 31 Июля 2018, 11:05:40 »

Цитировать

автоматическими читалками (чтобы глазки не уставали)...

Самописная "бубнилка". Голосовой движок - RHVoice.

AlekseyUbuntu · « **Ответ #4 :** 31 Июля 2018, 11:34:47 »

Цитата: Sirrke от 31 Июля 2018, 10:16:46

Да все, в общем-то, тоже самое... GImageReader + Tesseract. Работает нормально.

Не понял как пользоваться GImageReader:
1. Распознал как Plain Text- получил неотформатированную кашу без картинок.
2. Распознал hOCR, pdf- получил иерархию областей, со своими параметрами. Цельные страницы я не вижу.

Попробовал сохранить в текстовый формат (чтобы потом читать распознанный документ с помощью LibreOffice Writer) - нет такой функции. Если я должен copy- paste использовать для создания odt- документа, то во втором случае цельного документа просто нет.

Ничего не понял.

Пользователь добавил сообщение 31 Июля 2018, 11:41:47:

Заметил, что Okular предлагает экспорт в текст и для моего документа делает его мгновенно. Значит у моего документа есть слой распознанного текста. Но блин, он экспортирует как текст, а хочется создать нормальный odt- документ для просмотра с помощью LibreOffice Writer (аналог Word), чтобы было удобно читать.

Какой инструмент мне поможет сделать удобную для чтения книжку?

Sirrke · « **Ответ #5 :** 31 Июля 2018, 16:26:20 »

Ноут с Linuxом сейчас в ремонте, а так, на память объяснить, как там все работает сложно:) Уж извините. Я обычно выделяю область, которую надо распознать, потом обрабатываю распознанное во встроенном редакторе и копипастом отправляю в блог. Было дело, обрабатывал и большие файлы, но за давностью лет не помню, как делал. Так же вы можете обработать готовый текст в либре офисе, райтер способен читать текстовые файлы, потом можно сохранить файл в одт.

AlekseyUbuntu · « **Ответ #6 :** 01 Августа 2018, 08:51:06 »

Цитата: Sirrke от 31 Июля 2018, 16:26:20

Так же вы можете обработать готовый текст в либре офисе, райтер способен читать текстовые файлы, потом можно сохранить файл в одт.

В текстовом файле уже нет картинок + отсутствует структура файла, поэтому если его "засосать" в офисный документ, то качество полученного документа будет ужасным.

ТС, как видно по состоянию на 12/02/2020 потерял интерес к созданной им теме (пометка Решено в теме отсутствует, тема оставлена не закрытой, сообщений в теме давно не было). Тема стародавняя (последнее сообщение в топике: 01/08/2018; последнее сообщение от ТС в топике: 01/08/2018). Модератором раздела принято решение закрыть тему.
--zg_nico

jurganov · « **Ответ #7 :** 01 Августа 2018, 20:39:19 »

расстрою...
Все эти тессеракты и прочие распозновалки - чушь собачья.
Да и на винде только одна нормальная программа. FineReader
которая распознает с разных языков, не блоками по 5 слов, а большими книгами, с сохранением форматирования.
увы, она и сохраняет в ворд...

поставить это чудо техники на Linuxе можно через вайн. старые убогие версии. Но и они распознают В РАЗЫ лучше чем тессеракты

Axa-Ru · « **Ответ #8 :** 01 Августа 2018, 21:45:24 »

Цитата: jurganov от 01 Августа 2018, 20:39:19

увы, она и сохраняет в ворд...

Нет. Последняя версия умеет во все.

В свое время тоже искал открытую, но нет. Купил FR stadard.

jurganov · « **Ответ #9 :** 01 Августа 2018, 22:41:21 »

Цитата: Axa-Ru от 01 Августа 2018, 21:45:24

Нет. Последняя версия умеет во все.
В свое время тоже искал открытую, но нет. [/url].

7 косарей для себя - дорого!!
На работе имеется в редакции, туда хожу. Но там только ворд, видать староватая версия уже
А становтится через вайн?

Форум русскоязычного сообщества Ubuntu

Автор Тема: Что сегодня лучше использовать в качестве OCR и читалок ? (Прочитано 1047 раз)

AlekseyUbuntu

Что сегодня лучше использовать в качестве OCR и читалок ?

Sirrke

Re: Что сегодня лучше использовать в качестве OCR и читалок ?

AlekseyUbuntu

Re: Что сегодня лучше использовать в качестве OCR и читалок ?

andytux

Re: Что сегодня лучше использовать в качестве OCR и читалок ?

AlekseyUbuntu

Re: Что сегодня лучше использовать в качестве OCR и читалок ?

Sirrke

Re: Что сегодня лучше использовать в качестве OCR и читалок ?

AlekseyUbuntu

Re: Что сегодня лучше использовать в качестве OCR и читалок ?

jurganov

Re: Что сегодня лучше использовать в качестве OCR и читалок ?

Axa-Ru

Re: Что сегодня лучше использовать в качестве OCR и читалок ?

jurganov

Re: Что сегодня лучше использовать в качестве OCR и читалок ?