Автор Тема: Настройка yagf для работы с tesseract-ocr (Прочитано 1692 раз)

Decadence · « : 28 Июля 2018, 11:00:50 »

Нужно распознать несколько страниц с таблицами. Так как в cli этого не сделать, поставил yagf из реп. Только вот отказывается он работать. На данный момент установлено yagf, tesseract-ocr-eng, tesseract-ocr-rus. Чтобы выбрать язык для распознавания нужно его указать в настройках: или один язык, или несколько. Я указываю русский, закрываю настройки, выделаю блок, жму "Распознать блок", на что получаю:

Код: [Выделить]

You have selected recognising English language using tesseract OCR. Currently the data for this language is not installed in your system. Please install the tesseract data files for "eng" from your system repository.

Захожу заново в настройки - они вернулись к дефолту, т.е. язык английский в режиме одного языка. Пробую выставить в режиме нескольких языков английский и русский, но все тщетно. Подумал, что может быть права на конфиги неверно выставлены, но везде права 700 для моего юзера. Попробовал поставить 777, но опять же ни к чему не привело. Кто-то может подсказать, как все это решить?

Код: [Выделить]

4.15.0-29-generic
YAGF version: 0.9.3.2
tesseract 4.0.0-beta.1
leptonica-1.75.3

Пользователь добавил сообщение 28 Июля 2018, 12:13:05:

Забыл добавить, что распознаю русский язык. Попробовал взять лист с таблицей полностью на английском, вылезает такое же сообщение. Если запустить yagf через терминал, когда выскакивает ошибка, в терминале ничего не появляется. Там вообще никаких сообщений нет, а verbose режим разработчиком не предусмотрен. Может быть есть какие то альтернативы под linux, в которых можно вручную выбирать области для распознавания таблиц, как это реализовано в fine reader?

zse · « **Ответ #1 :** 29 Июля 2018, 01:57:57 »

— Тут уважаемый коллега, Decadence, как в присказке:„Вам шашечки или ехать😈“…
— Можно, конечно, заставить это всё работать, вот правда как с русским быть не скажу, с французским я возился долго… Начало даже получаться…
— Но к сожалению для работ с таблицами, к великому сожалению😞, нужно или в Wine ставить FR, пишут, что 7 версия работает или в витруальную машину, если ХР то до 12 версии там FR работает, а вот для 14 версии FR в виртуальной машине нужно win-7 или выше😕…
— Не помню я на нашем форуме энтузиастов, которые сильно продвинулись в вопросах распознавания текста исключительно только средствами под linux, тяжеловато это и неблагодарно😞 …

Decadence · « **Ответ #2 :** 29 Июля 2018, 09:25:26 »

zse, судя по всему так и есть... Нашел еще какие-то гуи, но успехом это не закончилось. В итоге на виртуалке с вин10 поставит FR14 и распознал все, что нужно без лишних хлопот.

soarin · « **Ответ #3 :** 29 Июля 2018, 15:17:52 »

К yagf ещё есть cuneiform как движок.
Я как-то распознавал простые тексты небольшого объёма. Но естественно всё это сильно уступает коммерческим аналогам.
А так вот неплохая статья была, хотя уже староватая
https://habr.com/post/153617/

zse · « **Ответ #4 :** 29 Июля 2018, 16:55:10 »

— Да, soarin, хорошая статья, я тоже как-то на неё попадал… Однако шесть лет прошло, а движения в сторону создания очередного „убийцы FineReader😈“ нет😞…

Цитировать

Без сомнения, лучший результат показал FineReader Engine v9.0. Он великолепно распознает как сканированные, так и сфотографированные изображения. Однако, минимальная стоимость его составляет 149€ за лицензию на 12000 распознаваний в год — надо ли вам это?

— Этот риторический вопрос автора актуален до настоящего времени…
— Только серьёзное финансовое спонсирование разработчиков может породить реального конкурента FineReader!

Форум русскоязычного сообщества Ubuntu

Автор Тема: Настройка yagf для работы с tesseract-ocr (Прочитано 1692 раз)

Decadence

Настройка yagf для работы с tesseract-ocr

zse

Re: Настройка yagf для работы с tesseract-ocr

Decadence

Re: Настройка yagf для работы с tesseract-ocr

soarin

Re: Настройка yagf для работы с tesseract-ocr

zse

Re: Настройка yagf для работы с tesseract-ocr