Автор Тема: Kubuntu. Сжатие PDF, состоящего из изображений, в один клик (Прочитано 1406 раз)

zg_nico · « : 11 Октября 2018, 15:06:28 »

Доброго времени суток, уважаемые форумчане!

Обозначу проблему: Часто по работе приходится заниматься сжатием документов pdf. Типовая задача: имеем отсканированный файл в приличном качестве с кому-то-очень-нужными-данными-сию-секунду, в котором чуть менее чем совсем туча страниц, и надо все это отправить по электронной почте, а вложения более 5 Мб почтовый сервер отбрасывает. По сути, выручает пакет ImageMagic с его замечательным convert. Однако, практика показывает, что для достижения приемлемого для чтения качества в купе с малым размером недостаточно просто выполнить

Код: [Выделить]

convert исходный_большой_файл.pdf -quality 30% -resize 30% -colorspace Gray  маленький_файл.pdf

страницы файла на выходе получаются замыленными вплоть до полной нечитабельности в отдельных случаях.

(Нажмите, чтобы показать/скрыть)

Гораздо лучшее качество на практике дает такой алгоритм:

Извлечь изображения из PDF-документа
Каждое изображение в отдельности обработать при помощи convert, приведя к jpg (дает малый размер выходного pdf-файла) и применив к каждому изображению параметры сжатия
Все изображения склеить в новый pdf-документ, который переименовать по аналогии с старым

Будучи человеком от природы ленивым, проделав все эти манипуляции пару раз, я пришел к выводу о необходимости составления скрипта, который будет выполнять это автоматически. Кроме того, с поправкой на используемое DE (Kubuntu 18.04), скрипт должен быть "интегрирован" в оболочку, дабы можно было вызывать его прямо в файловом менеджере из контекстного меню.
Предлагаемое решение не блещет ни оригинальностью, ни изяществом (поясняю: я не программист - мне главное чтоб работало), вместе с тем работоспособно, а потому предлагаю его вниманию сообщества, дабы страждущие вроде меня могли его "нагуглить" и пользовать в свое удовольствие. Для установки необходимо и достаточно создать два текстовых файла и присвоить им права. В случае если зависимости удовлетворены (см. коментарий скрипта) работа сразу возможна; если не удовлетворены - выполнить команду из комментария скрипта .sh и далее проблем быть не должно).

(Нажмите, чтобы показать/скрыть)

Код: (bash) [Выделить]

#!/bin/bash

# Скрипт для выполнения сжатия pdf-файлов, состоящих из изображений
# на pdf из текста не работает, - текст игнорируется, 
# распаковываются и берутся в работу только изображения
# Зависимости [второй пакет присутствует в системе по-умолчанию]:
# sudo apt install imagemagick poppler-utils
# Работа проверялась на KUbuntu 18.04.1
# Возможные режимы работы:
# 1. вызов из командной строки (есть своего рода консольный интерфейс)
# 2. вызов с параметром командной строки (в качестве параметра передать имя обрабатываемого файла)

#Глобальные переменные:
img_format='jpg'                                                                #формат, через который делаем сжатие. Варианты: jpg, png
img_quality=30                                                                  #качество выходных изображений (1-100)
img_resize='30%'                                                                #размер выходных изображений в процентах от исходных (1%-100%)
img_colorspace='Gray'                                                           #цветовое пространство выходных изображений: RGB, HSL, CMYK, Gray, ...

fName=""                                                                        #имя обрабатываемого файла
#Главная процедура скрипта
MainSub() {
    if [ -z "$fName" ]; then                                                    #если имя файла пустое - показываем интерфейс, где даем возможность ввести имя файла
        while true; do
            clear                                                               #экран выбора pdf-файла
            echo "Введите полный путь к PDF-файлу, который Вы хотите сжать"
            echo "Примечание: 1. клавиша TAB выполняет автодополнение ввода"
            echo "            2. для выхода наберите exit"
            read -e newFileName
            #проверка ввода пользователя:
            #1. Ввод не пустой
            if [ -z "$newFileName" ]; then 
                    echo -e "[!!!] Пустой ввод. Вы должны ввести полный путь к файлу!"
                    read -rsn1 -p "Для продолжения нажмите любую клавишу..."
                else
                    #если набрал 'exit' то выходим
                    if [[ $newFileName == "exit" ]]; then
                        echo "Выход по инициативе пользователя"
                        exit 0 
                        break
                    fi
                    #2. Файл существует
                    if [ ! -f "$newFileName" ]; then
                        echo -e "[!!!] Некорректное имя файла. Заданный файл не существует, или не может быть найден!"
                        read -rsn1 -p "Для продолжения нажмите любую клавишу..."
                    else
                        #3. Файл действительно pdf
                        newFileFileType=`xdg-mime query filetype "$newFileName"`
                        if [[ $newFileFileType == "application/pdf" ]]; then
                                #все условия выполнены - можем продолжить работу
                                fName=$newFileName
                                break
                            else
                                echo -e "[!!!] Заданный файл не является файлом PDF!"
                                read -rsn1 -p "Для продолжения нажмите любую клавишу..."
            fi; fi; fi
        done
    else                                                                        #если имя файла не пустое - принимаем за имя файла переданный параметр, и работаем с ним
        newFileFileType=`xdg-mime query filetype "$fName"`
        if [[ $newFileFileType != "application/pdf" ]]; then
                echo "[!!!] НЕ PDF-файл"
                if [[ $XDG_CURRENT_DESKTOP = "KDE" ]]; then kdialog --icon application-pdf --title "Ошибка" --passivepopup "Исходный файл: `basename "$fName"`\nНе является файлом PDF!"; fi
                exit 1
                break
            else
                echo "PDF-файл"
        fi
    fi
    #с этого места начинаем работать с файлом
    pathname=`dirname "$fName"`                                                   #получаем имя каталога из полного имени файла
    if [[ $pathname == "." ]]; then pathname=`pwd`; fi
    justname=`basename "$fName"`                                                  #получаем имя файла из полного его имени
    mkdir -p "$pathname/BufImgDir"                                              #создаем буферную папку
    pdfimages "$fName" "$pathname/BufImgDir/page"                               #Распаковываем изображения
    echo "$fName"
    echo "$pathname/BufImgDir/page"
    SAVEIFS=$IFS                                                                #сохраняем текущий системный разделитель IFS
    IFS=$'\n'                                                                   #заменяем системный разделитель на символ перевода строки (используется в выводе find)
    image_list=$( find -L "$pathname" -maxdepth 2 -name "*.ppm" | sort )        #обнаруживаем созданные файлы
    image_list=( $(echo -e "$image_list") )                                     #представляем все массивом
    #если в pdf не нашлось изображений:
    echo "${#image_list[@]}"
    if [[ ${#image_list[@]} == 0 ]]; then
        echo "[!!!] Распаковка заданного файла не дает изображений"
        if [[ $XDG_CURRENT_DESKTOP = "KDE" ]]; then kdialog --icon emblem-error --title "Ошибка" --passivepopup "Исходный файл: `basename "$fName"`\nНе состоит из изображений!"; fi
        rm -rf "$pathname/BufImgDir"                                            #удаляем буферную папку
        exit 
    fi
    for (( i=0; i<${#image_list[@]}; i++ ))
        do
            curfile=$(basename -- "${image_list[i]}")                           #имя текущего файла
            newname=${curfile/'.ppm'/".$img_format"}                            #имя файла после преобразования
            curfile="$pathname/BufImgDir/$curfile"                              #подставляем пути...
            newname="$pathname/BufImgDir/$newname"
            echo $newname
            convert $curfile -quality $img_quality -resize $img_resize -colorspace $img_colorspace "$newname"
        done
    IFS=$SAVEIFS                                                                #возвращаем системный разделитель в исходное состояние
    #конвертируем полученные сжатые изображения в pdf:
    convert "$pathname/BufImgDir/*.$img_format" -colorspace $img_colorspace "$pathname/BufImgDir/output.pdf"
    justname="compress_$justname"                                               #вычисляем имя для созданного файла
    mv "$pathname/BufImgDir/output.pdf" "$pathname/$justname"                   #переименовываем созданный файл
    rm -rf "$pathname/BufImgDir"                                                #удаляем буферную папку
    oldSize=`du -sh "$fName" | awk '{print $1}'`
    newSize=`du -sh "$pathname/$justname" | awk '{print $1}'`
    #В KDE пользователю будет показано уведомление следующего вида:
    if [[ $XDG_CURRENT_DESKTOP = "KDE" ]]; then kdialog --icon application-pdf --title "Сгенерирован файл" --passivepopup "Исходный файл: `basename "$fName"` [ $oldSize ]\n\nСозданный файл: $justname [ $newSize ]"; fi
}
#проверяем - переданы ли параметры при вызове скрипта
if [ -f  "$1" ]; then
        fName=$1
        MainSub
    else
        MainSub
fi
exit 0

Для добавления пункта в контекстное меню dolphin был создан еще один файл:

(Нажмите, чтобы показать/скрыть)

Код: [Выделить]

[Desktop Action compress_pdf]
Exec=~/.local/share/kservices5/ServiceMenus/pdf_comptress.sh %f
Icon=application-pdf
Name=Сжать PDF-файл [набор изображений]

[Desktop Entry]
Actions=compress_pdf;
Encoding=UTF-8
Icon=application-pdf
MimeType=application/pdf;
Type=Service
X-KDE-ServiceTypes=KonqPopupMenu/Plugin

Файлу ~/.local/share/kservices5/ServiceMenus/pdf_comptress.sh следует дать права на исполнение.
Файлу ~/.local/share/kservices5/ServiceMenus/compress_pdf.desktop права не требуются.
Результат применения: в файловом менеджере находим интересующий нас PDF-файл, кликаем на нем правой кнопкой мышки, ищем пукнт меню "Действия" -> "Сжать PDF-файл [набор изображений]". Кликаем. Ожидаем окончания работы скрипта. В KDE по завершении будет выведено уведомление.

(Нажмите, чтобы показать/скрыть)

Для примера взял один из своих недавно сканированных файлов. На входе 18 Мб, на выходе 1,4 Мб. В почту пролезает без проблем и читается неплохо.

ALiEN · « **Ответ #1 :** 11 Октября 2018, 17:04:30 »

Не с той стороны подошли к решению вопроса, поэтому и первая команда не сработала как должна бы. Надо DPI уменьшать, а не размер.

PS '-quality' при конвертации pdf-pdf не работает почему-то.

PPS Еще можно не переводить в grayscale, а указать количество цветов - это тоже даст выигрыш в размере.
например, -colors 16

а вот самый "жёсткий" вариант (для фото и прочей графики не подойдет, только для документов):

Код: [Выделить]

$: convert -density 96 in.pdf -auto-level -brightness-contrast 0x100 -monochrome out.pdf 
$: du -sh *                                                 
1,4M	in.pdf
116K	out.pdf

и по багам скрипта:
Если DPI pdf небольшое, в конечном файле будет жесть.

Немножко переписал скрипт - работает с DPI, как и должно быть, и с текстом работает, и подстановки понимает...

(Нажмите, чтобы показать/скрыть)

Код: (bash) [Выделить]

#!/bin/bash

QUAL=30          # качество картинки (1-100)
DPI=200          # качество файла
                 # 96-достаточно для просмотра, 300-для печати

errmsg() {
    echo "$1" >&2
}

if [[ -z $@ ]] ; then
    errmsg "Вы должны ввести имя файла!"
    exit 1
fi

while [ "$1" ] ; do
    if [ ! -f "$1" ]; then
        errmsg "Файл '$1' не найден!"
        shift
        continue
    fi

    if ! file "$1" | grep -q 'PDF document' ; then
        errmsg "Формат файла '$1' не PDF!"
        shift
        continue
    fi

    RP=$(realpath "$1")
    FN=${RP##*/}
    OUT=${RP%/*}/compressed_${FN%.*}.pdf # магия =)
    NN=1

    DIR=$(mktemp -d) || {
        errmsg "Нет доступа к '/tmp'! '$FN' не обработан!"
        shift
        continue
        }

    while [ -f "$OUT" ] ;do
        errmsg "Файл '$OUT' существует!"
        OUT="${RP%/*}/compressed_${FN%.*} ($NN).pdf"
        errmsg "Будет записан в '$OUT'"
        NN=$(( ++NN ))
    done

    convert "$RP" -alpha remove -resample $DPI -quality $QUAL "$DIR/%04d.jpg"
    convert "$DIR/"* "$OUT"

    SIN=$(du -sh "$RP"  | awk '{print $1}' )
    SOUT=$(du -sh "$OUT" | awk '{print $1}' )
    [[ $XDG_CURRENT_DESKTOP = "KDE" ]] &&
    kdialog --icon application-pdf --title "Сгенерирован файл" \
    --passivepopup "Исходный файл: $FN [ $SIN ] 
    Созданный файл: ${OUT##*/} [ $SOUT ]" 

    rm -r "$DIR"
    shift
done

zg_nico · « **Ответ #2 :** 11 Октября 2018, 23:48:59 »

ALiEN175, спасибо большое. Как за разяснение, так и за скрипт. Опробую как до ноутбука доберусь. Что касается жесткого метода - надо будет его испытать на нашей документации... Там помимо печатного текста есть графические вставки и рукописный текст. Отпишусь по итогам.
Еще раз большое спасибо!

Пользователь добавил сообщение 12 Октября 2018, 11:05:33:

ALiEN175, может зашел и не с той стороны. Однако мой файл описанными Вами алгоритмами ужимается хуже, чем постранично:

Код: (bash) [Выделить]

8,9M    compressed_test (1).pdf         #сжатый Вашим вариантом скрипта, параметры QUAL=100 DPI=96
1,6M    compressed_test (2).pdf         #сжатый Вашим вариантом скрипта, параметры QUAL=30 DPI=96 (изображение читается с трудом)
4,1M    compressed_test.pdf             #сжатый Вашим вариантом скрипта, параметры QUAL=30 DPI=200
1,5M    compress_test_my.pdf            #сжатый моим старым вариантом скрипта, img_quality=30, img_resize='30%', img_colorspace='Gray'
1,9M    out.pdf                         #сжатый командой convert -density 96 test.pdf -auto-level -brightness-contrast 0x100 -monochrome out.pdf
19M     test.pdf                        #исходный файл

По поводу исходного файла следует сказать отдельно: на работе стоит сканер с фирменной утилитой от производителя. Документ, который у меня сейчас сохранен (и с которым работаю) сканировался при выставлении в этой утилите DPI=300, цветовая палитра - оттенки серого. В итоге проверяя данный файл средствами identify я получаю полную белиберду, которая наводит меня на мысль о вранье со стороны фирменной утилиты:

Код: [Выделить]

identify -verbose test.pdf | egrep "(Colorspace|Resolution|Geometry|Depth)"
  Geometry: 581x833+0+0
  Resolution: 72x72
  Colorspace: sRGB
  Depth: 16/8-bit
...

Видимо поэтому изменение DPI не дает должного эффекта. Исходный PDF сам по себе как-то криво собран. Хотя наверное я что-то не верно определяю, поскольку если данный файл скормить convert с единственным параметром -resample 300, а полученный на выходе проверить аналогичным образом, то в графе Resolution все равно будет фигурировать 72x72

За наводку большое спасибо! Понял что можно развить скрипт для удобства применения. Особенно полезным для меня стал Ваш исходник. Узнал много такого, о чем ранее и не подозревал: начиная от механизма создания еще одного файла (я как-то и не думал, что следует так это реализовывать, - но как попробовал, понравилось), вплоть до mktemp (я и не подозревал о существовании такой полезной утилиты, и да rtfm

). Кроме того, отдельное спасибо за указание на это:

Код: [Выделить]

Если DPI pdf небольшое, в конечном файле будет жесть.Воспроизвести пока не могу (приведенные выше изыскания показывают, что я вообще не могу определить DPI текущего документа по непонятным на момент для меня причинам), так что надо мне будет покумекать. Попытаюсь сделать некий симбиоз: получаем на входе pdf-документ, определяем для него оптимальный вариант сжатия, и применяем соответствующую цепочку шагов. К примеру, в файле, где только одни изображения (как мой) предлагаемый мною способ (с перепаковкой pdf через jpg) дает довольно хороший результат (в плане соотношения между компрессией и выходным качеством); вместе с тем, как писалось уже выше - если в файле не только изображения, то он вообще не применим, а предлагаемый Вами скрипт справляется (хоть и в сторону увеличения размера файла иногда, - испытывал на LFS-BOOK-8.3.pdf, выставляя DPI=96, QUAL=30; исходник: 1,7 Мб, выходной файл: 5,3 Мб). Пример плохой, т.к. идет преобразование текста в изображение, что неминуемо раздувает выходной файл, - но это наталкивает меня на мысль о целесообразности "разделения" мух и котлет путем анализа каждой страницы на предмет наличия в ней текста и изображений. Если есть текст - надо пытаться сохранить страницу "as_is" (PDFshuffler умеет это - подсмотрю как у них это реализовано, он вроде на python почти весь); если нет текста (только изображение) - то сжать его, и двигаться дальше. Займет это много времени, но буду ковыряться по мере сил, и отписываться, соответственно.

ALiEN · « **Ответ #3 :** 12 Октября 2018, 15:04:29 »

Врёт, скорее сам identify.

еще как вариант, принудительно выставить 300 dpi, а потом уже уменьшать

Код: [Выделить]

convert -density 300 "$RP" -alpha remove -resample $DPI -quality $QUAL "$DIR/%04d.jpg"Правда, всю память может скушать, если страниц много

zg_nico · « **Ответ #4 :** 12 Октября 2018, 16:39:35 »

Цитата: ALiEN175 от 12 Октября 2018, 15:04:29

Врёт, скорее сам identify.

Похоже, что он в PDF не умеет определять разрешение вложенных изображений. Как ни экспериментировал - получается одно и то же значение на любых без исключения файлах PDF. Буду тормошить pypdf. Именно через него PDFshuffler работает, как я понял после беглого ознакомления с исходным кодом утилиты. Как только что получится - выложу. Тема получится долгоиграющая, к сожалению.

zse · « **Ответ #5 :** 13 Октября 2018, 00:28:31 »

— Меня тоже тема интересует, естественно больше сжатие чем „один клик“😇! Клик то такое дело, было бы на что кликать!
— До пенсии мы на работе делали много всякого djvu, не сами мы это конечно придумали, „мыслителей“ и командиров было достаточно, с этим всегда везде порядок😇!
— _https://spaces.hightail.com/receive/eazpxmKCoQ Для сравнения можно или из этого материала сделать pdf меньше djvu но сопоставимого качества? У меня пока не получилось, качество не очень😕
— DJVU всё делалось консольными программами, pdf на скорую руку делал из djvu, что ясное дело методологически неверно😞, но convert закапризничал (convert.im6: not authorized `001_38898721495_572D14f4ca_B.pdf' @ error/constitute.c/WriteImage/1072) нужно править /etc/ImageMagick/policy.xml
— Неплохо бы было иметь эффективный инструмент для сжатия и получения малоразмерного файла pdf из картинок, хотелось бы чтобы тема получила развитие!!! 2018 Oct 12; 05:28 PM

ALiEN · « **Ответ #6 :** 13 Октября 2018, 02:34:55 »

DJVU изначально создавался с упором на хранение документов. Выигрыша от конвертации djvu-pdf вряд ли можно добиться.

(Нажмите, чтобы показать/скрыть)

zse · « **Ответ #7 :** 13 Октября 2018, 05:43:24 »

— Да, ALiEN175, всё правильно Вы пишете!
— Тут какая ситуация, pdf стал фактически стандартом документооборота, а став стандартом вытеснил из некоторых сфер другие способы представления смешанной текстовой и визуальной информации.
— Мы как-то с zg_nico обсуждали смежную pdf-тему я так помню, что по работе ему нужно передавать определённый блок оперативной информации „невечного“ хранения и строго в pdf.
— Я же хочу несколько расширить задачу, а именно имеется N изображений смешанного тексто-визуального типа и нужно сравнить в каком из вариантов положим (odt, tiff, pdf, djvu и т.п) соотношение размер файла — качество наиболее приемлемые. Положим это нужно для «внутреннего употребления».
— Там по ссылке в предыдущем сообщении 4 картинки как источник и файлы tiff, pdf, djvu из этих картинок.
2018 Oct 12; 10:43 PM

Форум русскоязычного сообщества Ubuntu

Автор Тема: Kubuntu. Сжатие PDF, состоящего из изображений, в один клик (Прочитано 1406 раз)

zg_nico

Kubuntu. Сжатие PDF, состоящего из изображений, в один клик

ALiEN

Re: Kubuntu. Сжатие PDF, состоящего из изображений, в один клик

zg_nico

Re: Kubuntu. Сжатие PDF, состоящего из изображений, в один клик

ALiEN

Re: Kubuntu. Сжатие PDF, состоящего из изображений, в один клик

zg_nico

Re: Kubuntu. Сжатие PDF, состоящего из изображений, в один клик

zse

Re: Kubuntu. Сжатие PDF, состоящего из изображений, в один клик

ALiEN

Re: Kubuntu. Сжатие PDF, состоящего из изображений, в один клик

zse

Re: Kubuntu. Сжатие PDF, состоящего из изображений, в один клик