Форум русскоязычного сообщества Ubuntu


Следите за новостями русскоязычного сообщества Ubuntu в Twitter-ленте @ubuntu_ru_loco

Автор Тема: DjVu => txt  (Прочитано 3989 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн redbeatles

  • Автор темы
  • Участник
  • *
  • Сообщений: 183
  • WEB конструктор
    • Просмотр профиля
    • Стабилизаторы напряжения
DjVu => txt
« : 10 Января 2011, 14:32:59 »
Доброго времени!

Есть несколько книг в формате *.djvu, необходимо из перегнать в текст, желательно с картинками.
Если это делать под Windows, то можно копировать мышей, т.е. текстовый слой в файлах присутствует.
Document Viewer 2.32.0 - это софтина у меня на борту, но она может только глазеть, с помощью нее я даже текст выделить не могу.
Что порекомендуете, я юзал поиск, но ничего похожего не нашел на форуме.
Может есть какие-то готовые решения?

Спасибо!
Ubuntu 14.04 LTS
Zalman MS800 Plus + Asus H97-PRO + Intel Core i7-4790 + 4хDDR3-1600 8GB + Asus PCI-Ex GeForce GTX660 2GB + SSD/Intel 530 120GB + WD Caviar Blue 1TB

Оффлайн Shefango

  • Старожил
  • *
  • Сообщений: 1120
  • "Нет ни Зла, ни Добра. Только Целесообразность"
    • Просмотр профиля
Ubuntu MATE@G2120/ASRock H61M-DGS/2x2Gb RAM/500Gb,1Tb,1Tb SATA/GF GTХ650/ext4
Runtu XFCE-14.04@Dell Inspirion 3542

Оффлайн redbeatles

  • Автор темы
  • Участник
  • *
  • Сообщений: 183
  • WEB конструктор
    • Просмотр профиля
    • Стабилизаторы напряжения
Re: DjVu => txt
« Ответ #2 : 10 Января 2011, 16:19:26 »
20 страниц пролистал, нет ничего подходящего!
Ребят, кто в курсе, как содрать текст из DjVU? Очень нужно!
Ubuntu 14.04 LTS
Zalman MS800 Plus + Asus H97-PRO + Intel Core i7-4790 + 4хDDR3-1600 8GB + Asus PCI-Ex GeForce GTX660 2GB + SSD/Intel 530 120GB + WD Caviar Blue 1TB

Оффлайн zotkindm

  • Старожил
  • *
  • Сообщений: 2452
  • (K)Ub 14.04
    • Просмотр профиля
Re: DjVu => txt
« Ответ #3 : 10 Января 2011, 16:28:16 »
"DjVu (от фр. déjà vu — «уже виденное») — технология сжатия изображений с потерями, разработанная специально для хранения сканированных документов — книг, журналов, рукописей и прочее, где обилие формул, схем, рисунков и рукописных символов делает чрезвычайно трудоёмким их полноценное распознавание. Также является эффективным решением, если необходимо передать все нюансы оформления, например, исторических документов, где важное значение имеет не только содержание, но и цвет и фактура бумаги; дефекты пергамента: трещинки, следы от складывания; исправления, кляксы, отпечатки пальцев; следы, оставленные другими предметами и т.д." ВиКи.

Как интересно ты картинку в текст превратишь? Только распозновалка поможет.

Оффлайн redbeatles

  • Автор темы
  • Участник
  • *
  • Сообщений: 183
  • WEB конструктор
    • Просмотр профиля
    • Стабилизаторы напряжения
Re: DjVu => txt
« Ответ #4 : 10 Января 2011, 16:32:15 »
zotkindm, там есть текст!
Я же говорю, если открывать ЛЮБЫМ просмотрщиком из под Windows, то текст выделяется мышкой, но очень криво. Приходится каждый абзац выделять заново. Всего около 100 страниц, это занятие может занять не один час. К тому же структура текста в djvu в узкой колонке, таким образом приходится править его после того как скопировал в odt или любой другой текстовый редактор.
Другими словами, тест есть, просто его как-то нужно выделить и скопировать, но как?!
Ubuntu 14.04 LTS
Zalman MS800 Plus + Asus H97-PRO + Intel Core i7-4790 + 4хDDR3-1600 8GB + Asus PCI-Ex GeForce GTX660 2GB + SSD/Intel 530 120GB + WD Caviar Blue 1TB

Оффлайн zotkindm

  • Старожил
  • *
  • Сообщений: 2452
  • (K)Ub 14.04
    • Просмотр профиля
Re: DjVu => txt
« Ответ #5 : 10 Января 2011, 16:35:09 »
Текста там не может быть ни как, это просто картинка с текастом наложена на картинку с картиной. Распозновалка в любом случае нужна.

Оффлайн redbeatles

  • Автор темы
  • Участник
  • *
  • Сообщений: 183
  • WEB конструктор
    • Просмотр профиля
    • Стабилизаторы напряжения
Re: DjVu => txt
« Ответ #6 : 10 Января 2011, 16:37:21 »
Но как же я тогда могу копировать текст?! Я что, сумасшедший?
Я так одну книгу уже закинул в odf, но говорю, гловняк: загрузиться в Win => час копировать => 2-3 часа править => готовый odt.
Эта схема работает, но она очень трудоемкая, неужели никак нельзя автоматом перегнать?!
Ubuntu 14.04 LTS
Zalman MS800 Plus + Asus H97-PRO + Intel Core i7-4790 + 4хDDR3-1600 8GB + Asus PCI-Ex GeForce GTX660 2GB + SSD/Intel 530 120GB + WD Caviar Blue 1TB

Оффлайн zotkindm

  • Старожил
  • *
  • Сообщений: 2452
  • (K)Ub 14.04
    • Просмотр профиля
Re: DjVu => txt
« Ответ #7 : 10 Января 2011, 16:39:45 »
Признаю свою неосведомленность, тогда вопрос: чем формат не устраивает, к чему такие манипуляции?

Оффлайн redbeatles

  • Автор темы
  • Участник
  • *
  • Сообщений: 183
  • WEB конструктор
    • Просмотр профиля
    • Стабилизаторы напряжения
Re: DjVu => txt
« Ответ #8 : 10 Января 2011, 16:45:13 »
Изначально есть острая потребность в контенте для сайта.
Книга эта 60гг, так что авторские права уже не в счет, нашел ее в сети, пробил по нету, еще не выкладывали в в виде текста. Другими словами это 200 000 символов уникального контента с очень хорошей плотностью слов, вобщем если заказывать написание, то это порядка 2000$. А тут практически даром, я понимаю, за такую экономию можно и перегрузиться под Win7, но все же как-то не эстетично по отношению к Ubuntu. Я только 3 месяца как перескочил, доволен как слон, уже подумываю поставить на ночь Partition для создания общего раздела и снести Win к черту, но вот такие заковырки меня немного раздражают. В Win софта море, пусть из него добрые 70% полное УГ, но есть и приличные программы.
Короче говоря, я так понял по Google и Yandex, что автоматом эту проблему не решить и придется мне таки провести еще часок - полтора под Win.
Ubuntu 14.04 LTS
Zalman MS800 Plus + Asus H97-PRO + Intel Core i7-4790 + 4хDDR3-1600 8GB + Asus PCI-Ex GeForce GTX660 2GB + SSD/Intel 530 120GB + WD Caviar Blue 1TB

Оффлайн Lion-Simba

  • Старожил
  • *
  • Сообщений: 1126
    • Просмотр профиля
Re: DjVu => txt
« Ответ #9 : 10 Января 2011, 16:47:56 »
sudo apt-get install djvulibre-bin
djvutxt input.djvu output.txt
Оказываю индивидуальную платную техподдержку широкого профиля. Обращаться в ЛС или Jabber.

Оффлайн zotkindm

  • Старожил
  • *
  • Сообщений: 2452
  • (K)Ub 14.04
    • Просмотр профиля
Re: DjVu => txt
« Ответ #10 : 10 Января 2011, 16:49:25 »
Вот для этого и нужно иметь несколько систем. Программ много и каждой нужна своя система. Лично я не заморачиваюсь на поисках аналогов, ставлю то что есть.
Linux для инета и офиса, Windows для игр.

Оффлайн redbeatles

  • Автор темы
  • Участник
  • *
  • Сообщений: 183
  • WEB конструктор
    • Просмотр профиля
    • Стабилизаторы напряжения
Re: DjVu => txt
« Ответ #11 : 10 Января 2011, 17:04:32 »
sudo apt-get install djvulibre-bin
djvutxt input.djvu output.txt

Многоуважаемый, я крайне признателен за Ваш совет!
Все уже лежит в txt.
Еще раз большое спасибо!

zotkindm , игры конечно хорошо, но в свободное время я предпочитаю работать с WEB сайтами. Для вашей общей развитости, с сайта в тематике ремонт, недвижимость, медицина с посещаемостью в 2000 человек можно смело поднимать от 500 уставших енотов. Такой сайт создается для людей и регулярно над ним нужно коптить, как пчелка. При правильном подходе можно достигнуть такого параметра через год-полтора.
Вот после того, как я об этом узнал, я удалил CS1.6 и ввел в поисковик фразу "Как создать сайт на Joomla".
Ubuntu 14.04 LTS
Zalman MS800 Plus + Asus H97-PRO + Intel Core i7-4790 + 4хDDR3-1600 8GB + Asus PCI-Ex GeForce GTX660 2GB + SSD/Intel 530 120GB + WD Caviar Blue 1TB

 

Страница сгенерирована за 0.016 секунд. Запросов: 20.