Автор Тема: Возможность поиска текста после преобр-ния djvu в pdf (Прочитано 758 раз)

vvbryz · « : 27 Февраля 2020, 14:23:38 »

С появлением djview4 проблем с перекодированием из формата djvu в pdf вроде бы не осталось. Я неоднократно переделывал целые книги, правда, иногда на некоторых страницах конвертор ломался.
Но недавно я столкнулся с ситуацией, когда в файле .djvu djview4 находит символьные строки (в том числе и на русском), а после экспорта в .pdf с её помощью ни okular, ни evince в полученном .pdf файле не находят даже цифр.
В чём причина, как преобразовать этот djvu в pdf таким образом, чтобы строки находились?

ТС не появлялся на Форуме более трех месяцев по состоянию на 19/03/2021 (последняя явка: 07/03/2020). Модератором раздела принято решение закрыть тему.
--zg_nico

xub · « **Ответ #1 :** 27 Февраля 2020, 14:52:09 »

Я Вас приветствую! А простенькой программой:

Код: [Выделить]

djvutxt file.djvu > file.txtесли просмотреть для сравнения?
Вот не помню она требует или нет

Код: [Выделить]

sudo apt install djvulibre-binВсе эти djvu могут быть продуктом распознавания сканированных, положим, книг. Картинка то будет нормальной, а под картинкой будут всякие непригодные для чтения символы…
Когда ещё работал приходилось извращаться и повторно распознавать djvu да ещё и с ручной правкой для последующего корректного создания pdf файла… Надеюсь Вам до этого не придётся „опуститься😈“…
Вечером если что продолжим. 2020 Feb 27; 06:52 AM

jurganov · « **Ответ #2 :** 28 Февраля 2020, 08:54:38 »

Цитировать

DjVu — технология сжатия ИЗОБРАЖЕНИЙ с потерями там, где обилие формул, схем, рисунков и рукописных символов делает чрезвычайно трудоёмким их полноценное распознавание.
DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу.

видимо, твоя программа превращает многослойный DjVu в PDF, состоящий из скана-картинки.
наврено правильнее DjVu распознать (OCR), доработать как текст, и сохранить как PDF. Такой текстовый PDF будет весить куда меньше, чем из сканированных изображений

xub · « **Ответ #3 :** 28 Февраля 2020, 14:40:02 »

Да, jurganov, я установил эту программу djview4. Она даже из djvu с текстом делает pdf уже без этого текста.

Вот тут и кроется „обида😈“ текстовой слой уже есть, а перенести его корректно в pdf без повторного распознавания я способа быстро не нашёл😞. Единственно радует, что передо мной сейчас таких задач не стоит.😇

Вот наоборот пожалуйста:

Код: [Выделить]

pdf2djvu -o file20Feb28.djvu -d 400 ByPass20Feb27.pdf
ByPass20Feb27.pdf:
- page #1 -> #1
- page #2 -> #2
- page #3 -> #3
- page #4 -> #4
0.095 bits/pixel; 0.174:1, -474.32% saved, 123466 bytes in, 709096 bytes out

Получается djvu но больше исходного pdf текстовой слой остаётся, нужно читать про параметры и их пробовать, „сражение😈“ ведь за размер идёт…

Почитаю пристальнее про вот это:

Код: [Выделить]

sudo apt install djvulibre-binвозможно что-то пропустил и есть вариант из djvu делать pdf сохраняя при этом текстовой слой присутствовавший в djvu…

Но по воспоминаниям я всегда повторно распознавал djvu не взирая на наличие там текстового слоя😞…
2020 Feb 28; 06:39 AM

Пользователь добавил сообщение 28 Февраля 2020, 16:59:52:

Код: [Выделить]

ddjvu -format=pdf -quality=85 -verbose test.djvu test.pdfНо, текстовой слой не сохраняется…

Код: [Выделить]

du -sh *|sort -rh
7.2M	test.pdf
640K	test.djvu

Размер соответствующий…
2020 Feb 28; 08:59 AM

jurganov · « **Ответ #4 :** 29 Февраля 2020, 15:41:12 »

Мдя...
как хорошо, что на работу мы купили файнридер...
я им распознал рассказик, сохранил как PDF, и оказалось, что и текст имеется, и фактура бумаги имеется.. Прикольно

xub · « **Ответ #5 :** 29 Февраля 2020, 23:46:23 »

Я Вас приветствую, jurganov, автор темы видать расстроился, обиделся на ситуацию😈, не пишет😇! В общем я вариант нашёл, не получается запустить программу довольно старую😞…
https://askubuntu.com/questions/46233/converting-djvu-to-pdf
Вот здесь описан рецепт.

Вроде всё просто для начала нужно установить:

Код: [Выделить]

sudo apt install ocrodjvu
sudo gem install pdfbeads
sudo apt install ruby-nokogiri
sudo gem install pdf-reader

Пытаюсь собрать тестовую страницу, получаю:

Код: [Выделить]

↓↓↓                  /home/fjf/Desktop/Test2 
pdfbeads -o pg10.pdf
/usr/lib/ruby/vendor_ruby/rubygems/defaults/operating_system.rb:10: warning: constant Gem::ConfigMap is deprecated
/usr/lib/ruby/vendor_ruby/rubygems/defaults/operating_system.rb:10: warning: constant Gem::ConfigMap is deprecated
/usr/lib/ruby/vendor_ruby/rubygems/defaults/operating_system.rb:29: warning: constant Gem::ConfigMap is deprecated
/usr/lib/ruby/vendor_ruby/rubygems/defaults/operating_system.rb:30: warning: constant Gem::ConfigMap is deprecated
/usr/lib/ruby/vendor_ruby/rubygems/defaults/operating_system.rb:10: warning: constant Gem::ConfigMap is deprecated
Traceback (most recent call last):
	2: from /usr/local/bin/pdfbeads:37:in `<main>'
	1: from /usr/local/lib/site_ruby/2.5.0/rubygems/core_ext/kernel_require.rb:92:in `require'
/usr/local/lib/site_ruby/2.5.0/rubygems/core_ext/kernel_require.rb:92:in `require': cannot load such file -- pdfbeads (LoadError)

Пока пытаюсь разобраться почему „cannot load such file -- pdfbeads“ но результата ещё нет😞…
Вот такие пироги с котятами… 2020 Feb 29; 03:46 PM

jurganov · « **Ответ #6 :** 02 Марта 2020, 06:29:33 »

ох... я давно оставил эту тему...
ни на линуксе нормального OCR нету для русских текстов.
ни FineReader на wine не ставится.
я сканировал тексты на эсперанто, там ещё и спец символы нужны. Файнридеры же новых версий и языка позволяют выбирать в больших количествах, и с OpenOffice работают.

xub · « **Ответ #7 :** 02 Марта 2020, 14:49:13 »

Цитата: jurganov от 02 Марта 2020, 06:29:33

ох... я давно оставил эту тему...

В практическом смысле я тоже, у меня в виртуальной машине ХР и кажется 12 версия FR с поддержкой djvu… Для бытовых целей вполне достаточно. Я уже не работаю, а созданием электронных книг не увлекаюсь.

Очень жаль, что в связи с победным шествием pdf которое развивается постоянно и стало уже как „метр, килограмм, секунда😈“ в документообороте проекты которые могли бы стать альтернативой не развиваются. Это касается и djvu, размер файла перестал быть в современных условиях критическим.

Но тут интерес у меня к программе pdfbeads ❰https://rubygems.org/gems/pdfbeads/versions/1.1.1❱ в плане её возможностей по оптимизации размера PDF файла. Программа не развивается достаточно долго, запустить стало тяжело и не только мне..Есть обсуждения этой темы не только на знаменитом „книжном“ форуме DIY Book Scanner.

Да, времени прошло много https://github.com/ifad/pdfbeads помочь может либо автор, либо человек который „рубит😇“ в ruby.
2020 Mar 02; 06:49 AM

Форум русскоязычного сообщества Ubuntu

Автор Тема: Возможность поиска текста после преобр-ния djvu в pdf (Прочитано 758 раз)

vvbryz

Возможность поиска текста после преобр-ния djvu в pdf

xub

Re: Возможность поиска текста после преобр-ния djvu в pdf

jurganov

Re: Возможность поиска текста после преобр-ния djvu в pdf

xub

Re: Возможность поиска текста после преобр-ния djvu в pdf

jurganov

Re: Возможность поиска текста после преобр-ния djvu в pdf

xub

Re: Возможность поиска текста после преобр-ния djvu в pdf

jurganov

Re: Возможность поиска текста после преобр-ния djvu в pdf

xub

Re: Возможность поиска текста после преобр-ния djvu в pdf