Форум русскоязычного сообщества Ubuntu


Получить помощь и пообщаться с другими пользователями Ubuntu можно
на irc канале #ubuntu-ru в сети Freenode
и в Jabber конференции ubuntu@conference.jabber.ru

Автор Тема: Возможность поиска текста после преобр-ния djvu в pdf  (Прочитано 758 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн vvbryz

  • Автор темы
  • Новичок
  • *
  • Сообщений: 1
    • Просмотр профиля
С появлением djview4 проблем с перекодированием из формата djvu в pdf вроде бы не осталось. Я неоднократно переделывал целые книги, правда, иногда на некоторых страницах конвертор ломался.
Но недавно я столкнулся с ситуацией, когда в файле .djvu djview4 находит символьные строки (в том числе и на русском), а после экспорта в .pdf с её помощью ни okular, ни evince в полученном .pdf файле не находят даже цифр.
В чём причина, как преобразовать этот djvu в pdf таким образом, чтобы строки находились?

ТС не появлялся на Форуме более трех месяцев по состоянию на 19/03/2021 (последняя явка: 07/03/2020). Модератором раздела принято решение закрыть тему.
--zg_nico
« Последнее редактирование: 19 Марта 2021, 14:04:14 от zg_nico »

Оффлайн xub

  • Забанен
  • Активист
  • *
  • Сообщений: 283
  • If it ain't broke, don't fix it
    • Просмотр профиля
Я Вас приветствую! А простенькой программой:
djvutxt file.djvu > file.txtесли просмотреть для сравнения?
Вот не помню она требует или нет
sudo apt install djvulibre-binВсе эти djvu могут быть продуктом распознавания сканированных, положим, книг. Картинка то будет нормальной, а под картинкой будут всякие непригодные для чтения символы…
Когда ещё работал приходилось извращаться и повторно распознавать djvu да ещё и с ручной правкой для последующего корректного создания pdf файла… Надеюсь Вам до этого не придётся „опуститься😈“…
Вечером если что продолжим. 2020 Feb 27; 06:52 AM
https://webhamster.ru/site/page/index/articles/projectcode/181 LoLo Switcher. Конфигурирование… Рекомендую!!! Кардинально может решить проблемы переключения раскладки…

Оффлайн jurganov

  • Старожил
  • *
  • Сообщений: 1431
    • Просмотр профиля
Цитировать
DjVu — технология сжатия ИЗОБРАЖЕНИЙ с потерями там, где обилие формул, схем, рисунков и рукописных символов делает чрезвычайно трудоёмким их полноценное распознавание.
DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу.
видимо, твоя программа превращает многослойный DjVu в PDF, состоящий из скана-картинки.
наврено правильнее DjVu распознать (OCR), доработать как текст, и сохранить как PDF. Такой текстовый PDF будет весить куда меньше, чем из сканированных изображений

Оффлайн xub

  • Забанен
  • Активист
  • *
  • Сообщений: 283
  • If it ain't broke, don't fix it
    • Просмотр профиля
Да, jurganov, я установил эту программу djview4. Она даже из djvu с текстом делает pdf уже без этого текста.

Вот тут и кроется „обида😈“ текстовой слой уже есть, а перенести его корректно в pdf без повторного распознавания я способа быстро не нашёл😞. Единственно радует, что передо мной сейчас таких задач не стоит.😇

Вот наоборот пожалуйста:
pdf2djvu -o file20Feb28.djvu -d 400 ByPass20Feb27.pdf
ByPass20Feb27.pdf:
- page #1 -> #1
- page #2 -> #2
- page #3 -> #3
- page #4 -> #4
0.095 bits/pixel; 0.174:1, -474.32% saved, 123466 bytes in, 709096 bytes out
Получается djvu но больше исходного pdf текстовой слой остаётся, нужно читать про параметры и их пробовать, „сражение😈“ ведь за размер идёт…

Почитаю пристальнее про вот это:
sudo apt install djvulibre-binвозможно что-то пропустил и есть вариант из djvu делать pdf сохраняя при этом текстовой слой присутствовавший в djvu

Но по воспоминаниям я всегда повторно распознавал djvu не взирая на наличие там текстового слоя😞…
2020 Feb 28; 06:39 AM

Пользователь добавил сообщение 28 Февраля 2020, 16:59:52:
ddjvu -format=pdf -quality=85 -verbose test.djvu test.pdfНо, текстовой слой не сохраняется…
du -sh *|sort -rh
7.2M test.pdf
640K test.djvu
Размер соответствующий…
2020 Feb 28; 08:59 AM
« Последнее редактирование: 28 Февраля 2020, 17:00:24 от xub »
https://webhamster.ru/site/page/index/articles/projectcode/181 LoLo Switcher. Конфигурирование… Рекомендую!!! Кардинально может решить проблемы переключения раскладки…

Оффлайн jurganov

  • Старожил
  • *
  • Сообщений: 1431
    • Просмотр профиля
Мдя...
как хорошо, что на работу мы купили файнридер...
я им распознал рассказик, сохранил как PDF, и оказалось, что и текст имеется, и фактура бумаги имеется.. Прикольно

Оффлайн xub

  • Забанен
  • Активист
  • *
  • Сообщений: 283
  • If it ain't broke, don't fix it
    • Просмотр профиля
Я Вас приветствую,  jurganov, автор темы видать расстроился, обиделся на ситуацию😈, не пишет😇! В общем я вариант нашёл, не получается запустить программу довольно старую😞…
https://askubuntu.com/questions/46233/converting-djvu-to-pdf
Вот здесь описан рецепт.

Вроде всё просто для начала нужно установить:
sudo apt install ocrodjvu
sudo gem install pdfbeads
sudo apt install ruby-nokogiri
sudo gem install pdf-reader
Пытаюсь собрать тестовую страницу, получаю:
↓↓↓                  /home/fjf/Desktop/Test2
pdfbeads -o pg10.pdf
/usr/lib/ruby/vendor_ruby/rubygems/defaults/operating_system.rb:10: warning: constant Gem::ConfigMap is deprecated
/usr/lib/ruby/vendor_ruby/rubygems/defaults/operating_system.rb:10: warning: constant Gem::ConfigMap is deprecated
/usr/lib/ruby/vendor_ruby/rubygems/defaults/operating_system.rb:29: warning: constant Gem::ConfigMap is deprecated
/usr/lib/ruby/vendor_ruby/rubygems/defaults/operating_system.rb:30: warning: constant Gem::ConfigMap is deprecated
/usr/lib/ruby/vendor_ruby/rubygems/defaults/operating_system.rb:10: warning: constant Gem::ConfigMap is deprecated
Traceback (most recent call last):
2: from /usr/local/bin/pdfbeads:37:in `<main>'
1: from /usr/local/lib/site_ruby/2.5.0/rubygems/core_ext/kernel_require.rb:92:in `require'
/usr/local/lib/site_ruby/2.5.0/rubygems/core_ext/kernel_require.rb:92:in `require': cannot load such file -- pdfbeads (LoadError)
Пока пытаюсь разобраться почему „cannot load such file -- pdfbeads“ но результата ещё нет😞…
Вот такие пироги с котятами… 2020 Feb 29; 03:46 PM
« Последнее редактирование: 29 Февраля 2020, 23:47:59 от xub »
https://webhamster.ru/site/page/index/articles/projectcode/181 LoLo Switcher. Конфигурирование… Рекомендую!!! Кардинально может решить проблемы переключения раскладки…

Оффлайн jurganov

  • Старожил
  • *
  • Сообщений: 1431
    • Просмотр профиля
ох... я давно оставил эту тему...
ни на линуксе нормального OCR нету для русских текстов.
ни FineReader на wine не ставится.
я сканировал тексты на эсперанто, там ещё и спец символы нужны. Файнридеры же новых версий и языка позволяют выбирать в больших количествах, и с OpenOffice работают.

Оффлайн xub

  • Забанен
  • Активист
  • *
  • Сообщений: 283
  • If it ain't broke, don't fix it
    • Просмотр профиля
ох... я давно оставил эту тему...
В практическом смысле я тоже, у меня в виртуальной машине ХР и кажется  12 версия FR с поддержкой djvu… Для бытовых целей вполне достаточно. Я уже не работаю, а созданием электронных книг не увлекаюсь.

Очень жаль, что в связи с победным шествием pdf которое развивается постоянно и стало уже как „метр, килограмм, секунда😈“ в документообороте проекты которые могли бы стать альтернативой не развиваются. Это касается и djvu, размер файла перестал быть в современных условиях критическим.

Но тут интерес у меня к программе pdfbeadshttps://rubygems.org/gems/pdfbeads/versions/1.1.1❱ в плане её возможностей по оптимизации размера PDF файла. Программа не развивается достаточно долго, запустить стало тяжело и не только мне..Есть обсуждения этой темы не только на знаменитом „книжном“ форуме DIY Book Scanner.

Да, времени прошло много https://github.com/ifad/pdfbeads помочь может либо автор, либо человек который „рубит😇“ в ruby.
2020 Mar 02; 06:49 AM
https://webhamster.ru/site/page/index/articles/projectcode/181 LoLo Switcher. Конфигурирование… Рекомендую!!! Кардинально может решить проблемы переключения раскладки…

 

Страница сгенерирована за 0.055 секунд. Запросов: 25.