Форум русскоязычного сообщества Ubuntu


Считаете, что Ubuntu недостаточно дружелюбна к новичкам?
Помогите создать новое Руководство для новичков!

Автор Тема: OCR - что и как?  (Прочитано 1500 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн bogong

  • Автор темы
  • Участник
  • *
  • Сообщений: 214
    • Просмотр профиля
OCR - что и как?
« : 09 Ноября 2010, 13:45:17 »
Столкнулся с проблемой: нужно атоматизировать процесс распознания текста получаемого от пользователя в виде картинок и выкладывать его на сайте в виде HTML или засовывать полученное в базу данных ... Основная проблема в том что ничего пристойного под Unix-образную систему я не нашел. все программы написанные под Unix-образные системы рядом не стоят с ABBYY Finereader. Единственно возможное решение это сделать связку машин: одна - Ubuntu (на ней основноые вещи сайта) и вторая - Windows (на ней установлена только софтина для распознания текста). И вопрос таков - как это все дело связать чтоб это работало без вмешательства оператора? Как сделать так чтоб сервак получал картинку с текстом, отдавал её друкой машине под управлением Windows, на которой в атоматическом режиме происходило распознание текста и сохранение его в файл, потом головной сервер забирал и виндовой машины результат распознания и вкрячивал это либо в HTML либо в MySQL ...??? Буду рад любой информации ... Надоело руками перепахивать огромное количество информации ...

Оффлайн sciko

  • Активист
  • *
  • Сообщений: 854
    • Просмотр профиля
Re: OCR - что и как?
« Ответ #1 : 09 Ноября 2010, 14:13:13 »
Tesseract

Оффлайн bogong

  • Автор темы
  • Участник
  • *
  • Сообщений: 214
    • Просмотр профиля
Re: OCR - что и как?
« Ответ #2 : 09 Ноября 2010, 14:21:10 »
Tesseract

А может ли он работать под Unix-образными системами?

Оффлайн luu

  • Активист
  • *
  • Сообщений: 721
  • шта?
    • Просмотр профиля
Re: OCR - что и как?
« Ответ #3 : 09 Ноября 2010, 14:24:39 »
Tesseract

А может ли он работать под Unix-образными системами?
Может. Но тому же FineReader'у и в подметки не годится.
Думаю, даже не стоит пробовать организовать более-менее внятную систему распознавания на linux-машине.

Изначальный ход мыслей мне кажется правильным (распознавание под окнами, все остальное - нет).
Но. к сожалению, как это организовать я не знаю.
Будем надеяться тот, кто сможет направить на путь истинный, найдется.
Мне тоже очень интересна эта тема.
« Последнее редактирование: 09 Ноября 2010, 14:27:10 от luu »

Оффлайн sciko

  • Активист
  • *
  • Сообщений: 854
    • Просмотр профиля
Re: OCR - что и как?
« Ответ #4 : 09 Ноября 2010, 14:45:14 »
А может ли он работать под Unix-образными системами?
Он под них и разрабатывался.
Но тому же FineReader'у и в подметки не годится.
Ты просто не умеешь его использовать.
« Последнее редактирование: 10 Ноября 2010, 07:44:01 от RustemNur »

Оффлайн luu

  • Активист
  • *
  • Сообщений: 721
  • шта?
    • Просмотр профиля
Re: OCR - что и как?
« Ответ #5 : 09 Ноября 2010, 14:48:00 »
Но тому же FineReader'у и в подметки не годится.
Ты просто не умеешь его использовать.
Но. к сожалению, как это организовать я не знаю.
Вот и молчи. Всё равно ты ничего не знаешь и не умеешь.
Пруфлинк на то что Tesseract хотя бы сопоставим с FineReader по возможностям есть?

Оффлайн sciko

  • Активист
  • *
  • Сообщений: 854
    • Просмотр профиля
Re: OCR - что и как?
« Ответ #6 : 09 Ноября 2010, 15:13:28 »
Это пойдёт? Старое конечно (сейчас в тессе уже есть page layout analysis + языков побольше), но оценить уровень возможностей вполне можно.

Оффлайн bogong

  • Автор темы
  • Участник
  • *
  • Сообщений: 214
    • Просмотр профиля
Re: OCR - что и как?
« Ответ #7 : 09 Ноября 2010, 15:20:57 »
Это пойдёт? Старое конечно (сейчас в тессе уже есть page layout analysis + языков побольше), но оценить уровень возможностей вполне можно.

Мне в общем и целом этого достаточно. А можно ли это запускать фоном из скрипта? Т.е. иными словами мне нужно чтобы ПХПэшный скрипт сваливал картинку на сервак, который в свою очередь запускал эту прогу с предопределенными параметрами в консольном режиме и ваваливал текст ...

Оффлайн luu

  • Активист
  • *
  • Сообщений: 721
  • шта?
    • Просмотр профиля
Re: OCR - что и как?
« Ответ #8 : 09 Ноября 2010, 15:29:39 »
Это пойдёт? Старое конечно (сейчас в тессе уже есть page layout analysis + языков побольше), но оценить уровень возможностей вполне можно.

Нет. Это не пойдет. Потому что, например, здесь написано, что Finereader лучше!

Можно достоверный пример распознавания сложноформатированной страницы (включая картинки, таблицы, схемы и текст разных стилей) в сравнении Tessaract vs Finereader, с очевидным превосходством (ну или хотя бы тем же уровнем) Tessaract?

Оффлайн sciko

  • Активист
  • *
  • Сообщений: 854
    • Просмотр профиля
Re: OCR - что и как?
« Ответ #9 : 09 Ноября 2010, 15:43:26 »
Потому что, например, здесь написано, что Finereader лучше!
Так ты ещё и читать не умеешь!
Можно достоверный пример распознавания сложноформатированной страницы (включая картинки, таблицы, схемы и текст разных стилей) в сравнении Tessaract vs Finereader, с очевидным превосходством (ну или хотя бы тем же уровнем) Tessaract?
Мне лень. Попробуй сам.
« Последнее редактирование: 10 Ноября 2010, 07:44:34 от RustemNur »

Оффлайн luu

  • Активист
  • *
  • Сообщений: 721
  • шта?
    • Просмотр профиля
Re: OCR - что и как?
« Ответ #10 : 09 Ноября 2010, 16:03:53 »
Потому что, например, здесь написано, что Finereader лучше!
Так ты ещё и читать не умеешь!
Неужели я пропустил где-то там надпись мелким шрифтом "Вот мы такие замечательные, а Tessaract все равно лучше!"?


... удалено ...
Модератор
« Последнее редактирование: 10 Ноября 2010, 07:45:36 от RustemNur »

Оффлайн sciko

  • Активист
  • *
  • Сообщений: 854
    • Просмотр профиля
Re: OCR - что и как?
« Ответ #11 : 09 Ноября 2010, 16:59:28 »
А можно ли это запускать фоном из скрипта? Т.е. иными словами мне нужно чтобы ПХПэшный скрипт сваливал картинку на сервак, который в свою очередь запускал эту прогу с предопределенными параметрами в консольном режиме и ваваливал текст ...
Собственно так она и работает.
Пример запуска из мана: tesseract image.bmp output -l rus
Не забудь установить русский язык.

Можно ещё побеспокоить cuneiform (есть в репах), но он не очень стабилен, т.к. его сейчас всё ещё чистят от последствий проприетарного жития.

Оффлайн bogong

  • Автор темы
  • Участник
  • *
  • Сообщений: 214
    • Просмотр профиля
Re: OCR - что и как?
« Ответ #12 : 09 Ноября 2010, 22:55:33 »
А можно ли это запускать фоном из скрипта? Т.е. иными словами мне нужно чтобы ПХПэшный скрипт сваливал картинку на сервак, который в свою очередь запускал эту прогу с предопределенными параметрами в консольном режиме и ваваливал текст ...
Собственно так она и работает.
Пример запуска из мана: tesseract image.bmp output -l rus
Не забудь установить русский язык.

Можно ещё побеспокоить cuneiform (есть в репах), но он не очень стабилен, т.к. его сейчас всё ещё чистят от последствий проприетарного жития.

sciko - спасибо ..., буду пробовать ... О результатах танцев с бубном отпишусь ..., но думаю это будет через месячишко ...

Оффлайн kostryukov

  • Старожил
  • *
  • Сообщений: 1588
  • everybody lies
    • Просмотр профиля
    • kostryukov.net
Re: OCR - что и как?
« Ответ #13 : 09 Ноября 2010, 23:42:10 »
tesseract image.bmp output -l rus
а где взять этот самый rus

ну гуглкоде есть rus.traineddata.gz, но он не подходит почему то, или я что не так делаю
у меня можно спросить=)

 

Страница сгенерирована за 0.017 секунд. Запросов: 19.