Форум русскоязычного сообщества Ubuntu


Увидели сообщение с непонятной ссылкой, спам, непристойность или оскорбление?
Воспользуйтесь ссылкой «Сообщить модератору» рядом с сообщением!

Автор Тема: Можно это сделать командой grep?  (Прочитано 694 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн panteleev

  • Автор темы
  • Любитель
  • *
  • Сообщений: 63
    • Просмотр профиля
Можно это сделать командой grep?
« : 09 Января 2016, 11:14:25 »
Всем доброго времени суток!

Мне необходимо в каталоге с файлами: png, jpg, отсортировать файлы по имеющимся в них тексту.

Возможно ли и какой командой можно распознать текст в изображении?

Текст может быть как английский так и русский.
В дальнейших планах написать скрипт который переименовывал файлы и переносил в соответствующие каталоги.

Оффлайн Peter_I

  • Старожил
  • *
  • Сообщений: 3026
    • Просмотр профиля
Re: Можно это сделать командой grep?
« Ответ #1 : 09 Января 2016, 13:04:45 »
Командой нельзя; вообще говоря, только с помощью программы распознавания текста.
Я сейчас посмотрел, например, есть такой online-service.
Пётр.

Оффлайн Cxms

  • Активист
  • *
  • Сообщений: 407
    • Просмотр профиля
Re: Можно это сделать командой grep?
« Ответ #2 : 09 Января 2016, 13:56:08 »
Установите:
yagf
cuneiform
tesseract-ocr
tesseract-ocr-rus

Скриптом тоже можно (tesseract, cuneiform), но не пробывал.

Оффлайн panteleev

  • Автор темы
  • Любитель
  • *
  • Сообщений: 63
    • Просмотр профиля
Re: Можно это сделать командой grep?
« Ответ #3 : 09 Января 2016, 15:32:46 »
Cxms, спасибо!!!
Буду пробовать.

Оффлайн Peter_I

  • Старожил
  • *
  • Сообщений: 3026
    • Просмотр профиля
Re: Можно это сделать командой grep?
« Ответ #4 : 09 Января 2016, 21:04:06 »
Cxms,
Есть-то оно есть, только будет ли работать на картинках?
Все отзываются, что с FineReader не сравнить, а там специальный сервис.
Пётр.

Оффлайн Cxms

  • Активист
  • *
  • Сообщений: 407
    • Просмотр профиля
Re: Можно это сделать командой grep?
« Ответ #5 : 10 Января 2016, 08:31:59 »
Peter_I,
OCR
Цитировать
Оптическое распознавание символов (англ. optical character recognition, OCR) — механический или электронный перевод изображений рукописного, машинописного или печатного текста в текстовые данные, использующихся для представления символов в компьютере (например, в текстовом редакторе).
Цитировать
Все отзываются, что с FineReader не сравнить, а там специальный сервис.
Конечно FineReader лучше распознает. Сервис? оффлайн версию отменили чтоли.
Я tesseract'ом пользовался, норм., но все зависит от качества исходных изображений.

Оффлайн Peter_I

  • Старожил
  • *
  • Сообщений: 3026
    • Просмотр профиля
Re: Можно это сделать командой grep?
« Ответ #6 : 10 Января 2016, 10:52:51 »
Cxms,
Так именно что OCR - для распознавания текста как такового, а не текста на картинке.
Пишут, что эти программы под Linux справляются с текстом хорошего качества,
а с посредственным - плохо, а тут картинка.
Пётр.

Оффлайн Cxms

  • Активист
  • *
  • Сообщений: 407
    • Просмотр профиля
Re: Можно это сделать командой grep?
« Ответ #7 : 10 Января 2016, 11:24:39 »
Цитировать
Так именно что OCR - для распознавания текста как такового, а не текста на картинке.
Какого такового? Что вы имеете ввиду различая картинки и изображения?

Цитировать
Возможно ли и какой командой можно распознать текст в изображении?

Цитировать
Пишут, что эти программы под Linux справляются с текстом хорошего качества,
а с посредственным - плохо, а тут картинка.
Много чего пишут, лучше самому взять и попробовать.
(Нажмите, чтобы показать/скрыть)
« Последнее редактирование: 10 Января 2016, 11:27:40 от Cxms »

Оффлайн Peter_I

  • Старожил
  • *
  • Сообщений: 3026
    • Просмотр профиля
Re: Можно это сделать командой grep?
« Ответ #8 : 10 Января 2016, 23:53:29 »
Cxms,
Как такового - просто текст на однотонном фоне, а на картинке ещё и всякие детали.
Да, конечно, лучше самому попробовать, но мне ещё не приходилось.
Пётр.

Оффлайн Sly_tom_cat

  • Don't worry, be happy!
  • Заслуженный пользователь
  • Старожил
  • *
  • Сообщений: 12130
  • Xubuntu 22.04
    • Просмотр профиля
    • Github
Re: Можно это сделать командой grep?
« Ответ #9 : 11 Января 2016, 00:00:12 »
....ну так ТС не уточнил - какого качества там изображения с текстами и что там за изображения.

А так да - yagf + cuneiform пользовался разок -  вроде нормально. Но мне то и надо было пяток страниц отсканировать ...
Индикатор для Yandex-Disk: https://forum.ubuntu.ru/index.php?topic=241992
UEFI-Boot - грузимся без загрузчика: https://help.ubuntu.ru/wiki/uefiboot

Оффлайн panteleev

  • Автор темы
  • Любитель
  • *
  • Сообщений: 63
    • Просмотр профиля
Re: Можно это сделать командой grep?
« Ответ #10 : 11 Января 2016, 00:18:23 »
Мне не отсканировать...
Нужна команда которая сможет распознать внутри картинки текст.
Качество хорошее.
К примеру я сделаю скриншоты Вашего поста и пост Peter_I, Cxms и своего.
Всего 4 файла png на рабочем столе (к примеру). Смогу с помощью yagf найти файл со своим ником?
И как будет выглядеть команда?
Задумка на будущее, сприптом очищать рабочий стол, отсортировывая файлы по каталогам и переименовывая их в соответствии с запросом поиска.

Оффлайн Cxms

  • Активист
  • *
  • Сообщений: 407
    • Просмотр профиля
Re: Можно это сделать командой grep?
« Ответ #11 : 11 Января 2016, 15:39:36 »
Цитировать
Смогу с помощью yagf найти файл со своим ником?
И как будет выглядеть команда?
yagf - это ГУИ для cuneiform и tesseract.
Я использовал для распознавания tesseract в yagf (вручную). Он (tesseract) заметно лучше распознавал русские тексты в отличии от cuneiform, но лучше иметь оба. Текст скриншотов экрана распознает практически идеально, но не всегда. Все сильно зависит от настроек сглаживания и хинтования шрифтов экрана, и сами шрифты.
Tesseract также можно использовать как в консоли, так и в скриптах (читай man).

Цитировать
Задумка на будущее, сприптом очищать рабочий стол, отсортировывая файлы по каталогам и переименовывая их в соответствии с запросом поиска.
Через распознанный текст скриншота? ??? - это глупо и не выйдет. Ищи готовые решения.

 

Страница сгенерирована за 0.032 секунд. Запросов: 25.