Форум русскоязычного сообщества Ubuntu


Увидели сообщение с непонятной ссылкой, спам, непристойность или оскорбление?
Воспользуйтесь ссылкой «Сообщить модератору» рядом с сообщением!

Автор Тема: Конвертировать (распознать) PDF в ODT  (Прочитано 12658 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн demkov

  • Автор темы
  • Старожил
  • *
  • Сообщений: 2756
  • Юрист
    • Просмотр профиля
    • Контекстная реклама в MMGP
Да ёлы-палы, час промучался, ничерта не сделал.
Есть PDF-каталог:
http://reduktorntc-k.com.ua/katalog/chervyachno-cilindricheskie.pdf
Его надо невозбранно скачать и либо конвертировать в ODT в не особо изменённом виде, либо хотя бы в TXT.
Пока получилось открыть его только (!) в ODF LO Draw, но сохранить я могу его картинками. Вот парадокс, почему картинками, если я могу править текст как в презентации?
Подскажите, пожалуйста, что-нибудь.

У кого FineReader есть?
В ABBYY FineReader Online придётся отвалить 10$ (нужно распознать 144+ страниц) :-(

Пользователь решил продолжить мысль 29 Январь 2013, 00:08:03:
Как вариант, разбить документ на фрагменты по 3 страницы и распознавать бесплатно, но это сами понимаете, с 50 фрагментами-то.
« Последнее редактирование: 30 Январь 2013, 07:09:38 от forekko »
Для вебмастеров: CPC-реклама на MMGP-проектах!

Оффлайн Self-Perfection

  • Активист
  • *
  • Сообщений: 331
  • Arch linux, KDE
    • Просмотр профиля
Re: Конвертировать PDF в ODT
« Ответ #1 : 29 Январь 2013, 00:17:39 »
Его надо невозбранно скачать и либо конвертировать в ODT в не особо изменённом виде, либо хотя бы в TXT.

Код: (bash) [Выделить]
pdftotext *pdfРекомендую почитать к нему man: вполне возможно, что тонким тюнингом параметров можно будет добиться лучшего результата.
Читайте документацию, наставницу вашу!
Памятка по описанию проблем:
Для решения [такой-то задачи] делаю [такие-то действия], но вместо [ожидаемый результат] получаю [описание отличий].

Оффлайн demkov

  • Автор темы
  • Старожил
  • *
  • Сообщений: 2756
  • Юрист
    • Просмотр профиля
    • Контекстная реклама в MMGP
Re: Конвертировать PDF в ODT
« Ответ #2 : 29 Январь 2013, 10:00:06 »
Self-Perfection,
в Ubuntu 12.10, в источниках ничего подобного нет. При попытке установить нужно ставить кучу других пакетов, отсутствующих в источниках.

Решил вопрос обращением к знакомому виндузятнику с ABBYY FineReader, распознал, скинул, я пересохранил из DOCX в ODT.
YAGF умеет? Не смотрел.
Для вебмастеров: CPC-реклама на MMGP-проектах!

Оффлайн Self-Perfection

  • Активист
  • *
  • Сообщений: 331
  • Arch linux, KDE
    • Просмотр профиля
Re: Конвертировать PDF в ODT
« Ответ #3 : 29 Январь 2013, 13:47:41 »
$ dpkg -S `which pdftotext`
poppler-utils: /usr/bin/pdftotext
$ lsb_release -a
No LSB modules are available.
Distributor ID: Ubuntu
Description: Ubuntu 12.10
Release: 12.10
Codename: quantal
Читайте документацию, наставницу вашу!
Памятка по описанию проблем:
Для решения [такой-то задачи] делаю [такие-то действия], но вместо [ожидаемый результат] получаю [описание отличий].

Оффлайн Tokuan

  • Старожил
  • *
  • Сообщений: 1249
    • Просмотр профиля
    • В поисках здравого смысла
Re: Конвертировать PDF в ODT
« Ответ #4 : 29 Январь 2013, 21:04:07 »
Именно указанный файл довольно просто переводится в txt, с помощью pdfedit.
Есть в репах.
Таблицы и картинки, конечно пострадают.
"— Милая, - сказал он, - у вас в голове пять тысяч маркетологов срали десять лет, а вы хотите, чтобы я там убрал за пять минут…"
Пелевин В.О "Empire V"

Оффлайн ArcFi

  • Заслуженный пользователь
  • Старожил
  • *
  • Сообщений: 15189
    • Просмотр профиля
    • aetera.net
Re: Конвертировать PDF в ODT
« Ответ #5 : 29 Январь 2013, 21:17:07 »
У кого FineReader есть?
Есть fr8-portable, под wine раньше работал норм.
Если у вас имеется лицензия, могу поделиться.

Оффлайн demkov

  • Автор темы
  • Старожил
  • *
  • Сообщений: 2756
  • Юрист
    • Просмотр профиля
    • Контекстная реклама в MMGP
Re: Конвертировать PDF в ODT
« Ответ #6 : 30 Январь 2013, 07:09:12 »
ArcFi,
нет конечно.
Спасибо всем!
Уже ж решил вопрос, оставлю тему открытой, вдруг кто предложит способ через YAGF. Он у меня сейчас не установлен, не знаю, умеет ли PDF.
Для вебмастеров: CPC-реклама на MMGP-проектах!

Оффлайн ArcFi

  • Заслуженный пользователь
  • Старожил
  • *
  • Сообщений: 15189
    • Просмотр профиля
    • aetera.net
Re: Конвертировать (распознать) PDF в ODT
« Ответ #7 : 30 Январь 2013, 08:23:22 »
не знаю, умеет ли PDF
PDF cконвертить в любой растровый формат — не проблема. Тем же convert из ImageMagick.

Оффлайн demkov

  • Автор темы
  • Старожил
  • *
  • Сообщений: 2756
  • Юрист
    • Просмотр профиля
    • Контекстная реклама в MMGP
Re: Конвертировать (распознать) PDF в ODT
« Ответ #8 : 30 Январь 2013, 15:41:33 »
ArcFi,
я не про растровый формат говорил. Хотелка хотела именно редактируемый документ ODT/DOC. Единственный нормальный способ это сделать — интуитивные системы распознавания, которые сканируют PDF как изображение. Замечательно справился FineReader, вот узнаю, как распознать PDF можно в Ubuntu.
Для вебмастеров: CPC-реклама на MMGP-проектах!

Оффлайн tеma

  • Активист
  • *
  • Сообщений: 306
    • Просмотр профиля
Re: Конвертировать (распознать) PDF в ODT
« Ответ #9 : 30 Январь 2013, 16:00:55 »
forekko, Вообщем сконвертировал я тебе твой документ. Правда без картинок (если они там были, я просто pdf не скачивал, онлайн сконвертил). Вот ссылка на файл, посмотри: http://yadi.sk/d/238Iw_J92ELtQ

Оффлайн demkov

  • Автор темы
  • Старожил
  • *
  • Сообщений: 2756
  • Юрист
    • Просмотр профиля
    • Контекстная реклама в MMGP
Re: Конвертировать (распознать) PDF в ODT
« Ответ #10 : 30 Январь 2013, 17:05:01 »
tеma,
онлайн — нормос! Хоть текст, пофиг, что не распознавало и просто вывело его построчно. Но можно попробовать его скачать, открыть и увидеть его во всей красе ;;)

Пользователь решил продолжить мысль 30 Январь 2013, 17:06:57:
Кстати, чем конвертировал? Я пробовал где-то, мне пустой документ выдало.
Повторюсь ещё раз: попробуйте не конвертировать PDF а распознать его. Под Linux есть множество OCR. Достоинство PDF — это не просто картинка, это векторный такой текст с замечательным качеством. Одно требуется — чтобы программа сумела более-менее отразить форматирование документа + в идеале ещё и картинки в нужные места расставить.
« Последнее редактирование: 30 Январь 2013, 17:06:57 от forekko »
Для вебмастеров: CPC-реклама на MMGP-проектах!

Оффлайн tеma

  • Активист
  • *
  • Сообщений: 306
    • Просмотр профиля
Re: Конвертировать (распознать) PDF в ODT
« Ответ #11 : 30 Январь 2013, 17:13:49 »
Конвертировал здесь: http://www.online-convert.com/ Там не только в одт можно, поддерживается очень много форматов.

Пользователь решил продолжить мысль 30 Январь 2013, 17:22:51:
А для каких целей нужно. Может есть другой путь?
« Последнее редактирование: 30 Январь 2013, 17:22:51 от tеma »

Оффлайн demkov

  • Автор темы
  • Старожил
  • *
  • Сообщений: 2756
  • Юрист
    • Просмотр профиля
    • Контекстная реклама в MMGP
Re: Конвертировать (распознать) PDF в ODT
« Ответ #12 : 30 Январь 2013, 17:28:58 »
Там не только в одт можно, поддерживается очень много форматов.
Его (документ) кроме как в plain text лучше не смотреть, правда.

Нужно было тому, кто требовал это сделать, я не уточнял цели.
Для вебмастеров: CPC-реклама на MMGP-проектах!

Оффлайн tеma

  • Активист
  • *
  • Сообщений: 306
    • Просмотр профиля
Re: Конвертировать (распознать) PDF в ODT
« Ответ #13 : 30 Январь 2013, 17:52:27 »
Цитировать
Его (документ) кроме как в plain text лучше не смотреть, правда.
Ну дык и не всем же требуется конвертировать такие тексты про редукторы.
Мне кажется, что с такой задачей если что и справится -- так это FineReader. Так-что если хочешь сохранить форматирование, да и прочие плюшки -- вперёд. Или чем ты его планировал конвертировать?

Оффлайн demkov

  • Автор темы
  • Старожил
  • *
  • Сообщений: 2756
  • Юрист
    • Просмотр профиля
    • Контекстная реклама в MMGP
Re: Конвертировать (распознать) PDF в ODT
« Ответ #14 : 30 Январь 2013, 18:26:33 »
tеma,
свободными/бесплатными аналогами типа OCR под Linux. YAGF/Tesseract, ЕМНИП.
Для вебмастеров: CPC-реклама на MMGP-проектах!

 

Страница сгенерирована за 0.077 секунд. Запросов: 24.