Нужно распознать несколько страниц с таблицами. Так как в cli этого не сделать, поставил yagf из реп. Только вот отказывается он работать. На данный момент установлено yagf, tesseract-ocr-eng, tesseract-ocr-rus. Чтобы выбрать язык для распознавания нужно его указать в настройках: или один язык, или несколько. Я указываю русский, закрываю настройки, выделаю блок, жму "Распознать блок", на что получаю:
You have selected recognising English language using tesseract OCR. Currently the data for this language is not installed in your system. Please install the tesseract data files for "eng" from your system repository.
Захожу заново в настройки - они вернулись к дефолту, т.е. язык английский в режиме одного языка. Пробую выставить в режиме нескольких языков английский и русский, но все тщетно. Подумал, что может быть права на конфиги неверно выставлены, но везде права 700 для моего юзера. Попробовал поставить 777, но опять же ни к чему не привело. Кто-то может подсказать, как все это решить?
4.15.0-29-generic
YAGF version: 0.9.3.2
tesseract 4.0.0-beta.1
leptonica-1.75.3
Пользователь добавил сообщение 28 Июля 2018, 12:13:05:
Забыл добавить, что распознаю русский язык. Попробовал взять лист с таблицей полностью на английском, вылезает такое же сообщение. Если запустить yagf через терминал, когда выскакивает ошибка, в терминале ничего не появляется. Там вообще никаких сообщений нет, а verbose режим разработчиком не предусмотрен. Может быть есть какие то альтернативы под linux, в которых можно вручную выбирать области для распознавания таблиц, как это реализовано в fine reader?