Форум русскоязычного сообщества Ubuntu


Автор Тема: Распознавание текста в Ubuntu - проблема с установкой YAGF  (Прочитано 5757 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Mixim

  • Автор темы
  • Участник
  • *
  • Сообщений: 114
    • Просмотр профиля
Встала задача распознать сканированный ранее текстовый документ (текст + таблица). Полазил в Google и тут, нашел изрядное количество аналогичных тем (например, вот), обнаружил в Help.Ubuntu.Ru приложение YAGF, попытался добавить репозиторий:
Цитировать
sudo add-apt-repository ppa:alex-p/notesalexp
и затем установить через Менеджер приложений, но в качестве вывода первой команды имею:
Цитировать
mixim@Miximia:~$ sudo add-apt-repository ppa:alex-p/notesalexp
[sudo] password for mixim:
You are about to add the following PPA to your system:
 tag:launchpad.net:2008:redacted
 More info: https://launchpad.net/~alex-p/+archive/notesalexp
Press [ENTER] to continue or ctrl-c to cancel adding it

gpg: создана таблица ключей `/tmp/tmpgxlGku/secring.gpg'
gpg: создана таблица ключей `/tmp/tmpgxlGku/pubring.gpg'
gpg: "tag:launchpad.net:2008:redacted" не идентификатор ключа: пропущен
recv failed

Открываю Менеджер приложений, в котором ввожу: "YAGF", получаю:
(Нажмите, чтобы показать/скрыть)
Выбираю "yagf" и вижу:
(Нажмите, чтобы показать/скрыть)
т.е. "Не найдено. В ваших текущих источниках приложений нет пакета с названием "yagf"". Очевидно, что такой вывод связан с тем, что при добавлении репозитория получил ошибку: "...пропущен recv failed". Пробовал удалять и заново добавлять репозиторий, но вывод всегда один и тот же.
Подскажите пожалуйста, каким образом можно решить возникшую проблему или каким другим образом можно распознать текст указанного ранее формата?

Оффлайн vkapas

  • Любитель
  • *
  • Сообщений: 93
    • Просмотр профиля
Про YAGF в Ubuntu 12.04 сказать не могу, но в 10.04 у меня встало без особых проблем. Однако сразу хочу предупредить, что не стоит от YAGF ждать уровня FineReader. На моих текстах это был такой уровень, что проще самому перепечатать.

И вообще, отходя в сторону, некоторое время назад я изучал вопрос OCR в GNU/Linux и могу сказать, что лучше всего в нашем с вами случае, увы, использовать онлайновые системы распознавания:
www.newocr.com
finereader.abbyyonline.com/ru

Из программ с GUI могу также сказать, что пробовал TesseractGUI, который не работает с русским языком и Cuneiform-Qt, который так толком ничего и не распознал, сколь я над ним не бился.

Если интересно, на Хабре недавно появился огромный пост, полностью посвящённый теме OCR в Линуксах. Там всё расписано намного подробнее, но выводы автор делает примерно те же самые :-)
« Последнее редактирование: 19 Октября 2012, 10:27:03 от vkapas »

Оффлайн БТР

  • Заслуженный пользователь
  • СуперМодератор
  • Старожил
  • *
  • Сообщений: 6161
    • Просмотр профиля
реп называется ppa:alex-p/notesalexp-precise

после добавления репа нужно обновлять список пакетов.

Pilot6

  • Гость
Лучше Finereader в wine поставить. Все равно yagf ничего толком не распознает.

Оффлайн Mixim

  • Автор темы
  • Участник
  • *
  • Сообщений: 114
    • Просмотр профиля
И вообще, отходя в сторону, некоторое время назад я изучал вопрос OCR в GNU/Linux и могу сказать, что лучше всего в нашем с вами случае, увы, использовать онлайновые системы распознавания:
www.newocr.com
finereader.abbyyonline.com/ru

Если интересно, на Хабре недавно появился огромный пост, полностью посвящённый теме OCR в Линуксах. Там всё расписано намного подробнее, но выводы автор делает примерно те же самые :-)
Когда же в ОС семейства Linux появятся полноценные вещи, обычные для Windows? - риторический вопрос.
Там всё расписано намного подробнее, но выводы автор делает примерно те же самые :-)
Сугубо мое мнение: в мире (западные страны, например) доля Windows несколько ниже чем в РФ (как-то смотрел оценку CodeProject по этому поводу, где указывалось что доля "форточки" около 40%.), так почему же softdeveloper'ы до сей поры не разработали OCR-алгоритмы для Linux (возможно я неправильно понял оценку, вероятно что это доля среди пользователей самого CodeProject).
Лучше Finereader в wine поставить.
Понятно, что можно установить WINE и не мучиться, но хотелось что-нибудь нативное для Linux.
Вообщем ладно, вспомнил что сканировал и сохранял необходимые документы еще когда пользовался "форточкой" - нашел эти файлы, подкорректировал и проблемы больше нет.
Уважаемое Ubuntu-сообщество, может быть возьмемся за идею реализации своего OCR-алгоритма под Linux?

Оффлайн Haron Prime

  • Почётный модератор
  • Старожил
  • *
  • Сообщений: 11313
  • Нетолерантный социопат
    • Просмотр профиля
Офтоп удалил.
Пока без раздачи "бонусов"
В следующий раз выпишу по полной!

Оффлайн Sly_tom_cat

  • Don't worry, be happy!
  • Заслуженный пользователь
  • Старожил
  • *
  • Сообщений: 12130
  • Xubuntu 22.04
    • Просмотр профиля
    • Github
Уважаемое Ubuntu-сообщество, может быть возьмемся за идею реализации своего OCR-алгоритма под Linux?

Так кто мешает - возьмитесь :).

А если серьезно - то распознавание на уровне пару страничек распознать - мне допустим для этого хватило доступных в Linux свободных  программ (cuneiform+OCRFeeder). А серьезное распознавание (томов и библиотек) - это уже серьезный проект, который требует серьезной организации в первую очередь а ПО - всего-лишь инструмент, в рамках проекта - ни ОС ни ПО для распознавания не имеют особого значения.
« Последнее редактирование: 22 Октября 2012, 12:34:26 от Sly_tom_cat »
Индикатор для Yandex-Disk: https://forum.ubuntu.ru/index.php?topic=241992
UEFI-Boot - грузимся без загрузчика: https://help.ubuntu.ru/wiki/uefiboot

Оффлайн Antony3d

  • Любитель
  • *
  • Сообщений: 83
  • 12.04+GNOME Shell 3.4.1
    • Просмотр профиля
Есть проблема с yagf 0.9.2-1ppa1~precise1 на 12.04 unity. Сканирует через xsane и распознаёт она вроде бы нормально, а вот при попытке открыть изображение она просто падает:
QSpiAccessible::accessibleEvent not handled:  "8008"  obj:  QObject(0x0)  " invalid interface!"
QSpiAccessible::accessibleEvent not handled:  "8008"  obj:  QSidebar(0x8bccda8, name = "sidebar") "sidebar"
FIXME: handle dialog start.
QSpiAccessible::accessibleEvent not handled:  "8008"  obj:  QObject(0x0)  " invalid interface!"
Interface is not valid
ASSERT failure in : "Got an update for an invalid inteface. Investigate this.", file atspiadaptor.cpp, line 899
Aborted

Падает и при выборе любого файла, и падает даже при попытке перейти в директорию с графическими файлами ;(

Кто-нибудь сталкивался?

 

Страница сгенерирована за 0.05 секунд. Запросов: 25.