Автор Тема: Как экспортировать pdf- журналы в txt- файлы без разбивки по колонкам? (Прочитано 989 раз)

AlekseyUbuntu · « : 14 Августа 2021, 18:26:19 »

Есть большое количество pdf- журналов, посвященных мед. тематике. Когда я их экспортирую в обычный текст, то вместо текста по всей ширине страницы получаю текст разбитый на колонки (как изначально было в журнале).

Есть ли какая- то готовая утилита, которая позволяет форматировать подобный текст в человеческий вид?

qpdb · « **Ответ #1 :** 14 Августа 2021, 23:13:55 »

Приветствую!

А как себя ведёт классическая программа pdftotext? Колонки то по разному могут быть выполнены… Обычно из двух колонок журнала делается одна т.е правая колонка копируется после левой.

Вот я открыл какие-то журналы h t t p s : / /1 0 0 p d f . c l u b/ и попробовал с разными опциями

Код: [Выделить]

pdftotext -raw file.pdf
pdftotext -layout file.pdf

Там файл помощи короткий посмотрите может с чем ещё придётся поэкспериментировать… У меня как-то была подобная задача pdftotext не помог, пришлось унизиться

до разрезания pdf

на полоски (текст — иероглифы)…

2021 Aug 14; 04:13 PM

AlekseyUbuntu · « **Ответ #2 :** 15 Августа 2021, 19:03:36 »

Нашел отличную библиотеку на Python: pymupdf. Кто умеет, тот может написать так:

Код: [Выделить]

with fitz.open(file) as doc:
    for page in doc:
        list_texts = page.getText('blocks')
        for text in list_texts:
            print(text[4])

И вы получите текст в виде отдельных блоков, которые идут последовательно (сначала все блоки первой колонки, потом все блоки второй колонки, третьей....) и никак между собой не пересекаются. Это не сырой текст, где надо искать какие- то неточные признаки (типа, больше одного пробела подряд- значит первая колонка закончилась и после пробелов начнется строка второй колонки).

Форум русскоязычного сообщества Ubuntu

Автор Тема: Как экспортировать pdf- журналы в txt- файлы без разбивки по колонкам? (Прочитано 989 раз)

AlekseyUbuntu

Как экспортировать pdf- журналы в txt- файлы без разбивки по колонкам?

qpdb

Re: Как экспортировать pdf- журналы в txt- файлы без разбивки по колонкам?

AlekseyUbuntu

Re: Как экспортировать pdf- журналы в txt- файлы без разбивки по колонкам?