Автор Тема: Пакетное наложение на страницу PDF-файла гиперссылки на сайт (Прочитано 4551 раз)

ubu12.04ntu · « : 26 Марта 2016, 01:49:51 »

Посоветуйте,как на первой странице тысяч PDF-файлов где-нибудь на полях добавить гиперссылку на сайт первоисточника. Это не просто водяной знак в виде текста, но кликабельная ссылка.
Ручками долго, хотелось бы пакетно.

Всякие шпрингеры и другие изд-тельства как-то это делают
Ссылка идентичная для всех файлов. (На главную сайта)

ubu12.04ntu · « **Ответ #1 :** 28 Марта 2016, 12:41:31 »

В винде делается a-pdf-watermark

serchik · « **Ответ #2 :** 28 Марта 2016, 12:45:24 »

Цитата: ubu12.04ntu от 28 Марта 2016, 12:41:31

В винде делается a-pdf-watermark

И стоит 35$. Напишите скрипт на языке python (или любом другом

), автоматизирующий данную задачу.

ubu12.04ntu · « **Ответ #3 :** 28 Марта 2016, 16:30:50 »

Было бы здорово! Я ни в зуб ногой...

adawdp · « **Ответ #4 :** 28 Марта 2016, 19:56:15 »

2016 Mar 28; 12:55 PM; Oakville, ON, Canada.

— У меня такая задача часто возникает, но правда pdf не очень большие не более 20 листов, редко 22-23…
— Смысл таков - я разбиваю первоначальный файл pdf сначала на отдельные страницы, потом каждую страницу объединяю со страницей где изготовлена гиперссылка…
— Это всё делает программа pdftk …
— Фрагмент скрипта выглядит вот так:

Код: (bash) [Выделить]

mkdir 123; mkdir 456; cp *∗100* ./123; cp *∗400* ./456
cd 123; pdftk *.pdf burst; cd ..; cd 456; pdftk *.pdf burst; cd ..; mkdir 789
pdftk ./456/pg_0001.pdf ./123/pg_0001.pdf cat output ./789/001.pdf
pdftk ./456/pg_0002.pdf ./123/pg_0002.pdf cat output ./789/002.pdf
pdftk ./456/pg_0003.pdf ./123/pg_0003.pdf cat output ./789/003.pdf
pdftk ./456/pg_0004.pdf ./123/pg_0004.pdf cat output ./789/004.pdf
pdftk ./456/pg_0005.pdf ./123/pg_0005.pdf cat output ./789/005.pdf

— Если не пытаться писать сложный скрипт с циклами и так далее то в LO calc можно сделать такую запись хоть для 1000 страниц

…
— К сожалению это не прямая рекомендация, это направление и скрипт под вашу ситуацию нужно писать исходя, естественно, из ваших данных

…
— Подводные камни здесь это изменение размера страниц, но поскольку мне это нужно практически для „внутреннего употребления“ в рамках компании это не важно. А чтобы добавить ссылки для документа так сказать „на продажу“ нужны будут дополнительные действия. Т.е. возможная подгонка страниц обрезка полей и тому подобное украшательство.

ubu12.04ntu · « **Ответ #5 :** 28 Марта 2016, 20:51:25 »

Все файлы однотипные. A4, книжна ориентация во всех. Файлы порядка 100 стр.
Ссылку нужно вставить только на первой странице.
Просто процедуру нужно выполнить для большого количества файлов. Никаких украшательств не нужно, просто ссылка на главную страницу сайта.

adawdp · « **Ответ #6 :** 28 Марта 2016, 22:25:36 »

2016 Mar 28; 03:25 PM

— Ubu12.04ntu,я немного неправильно понял задачу.
А можно ли к каждому файлу добавить в начале целую страницу пусть будет НУЛЕВАЯ или вроде обложки, а там положим картинка а под ней искомая ссылка.
— И эту НУЛЕВУЮ страницу уже сделать первой в каждом файле добавив её туда.

Самое простое по исполнению решение… Буду после работы 2016 Mar 28; 07:25 PM

ubu12.04ntu · « **Ответ #7 :** 28 Марта 2016, 22:37:27 »

Цитата: adawdp от 28 Марта 2016, 19:56:15

— Смысл таков - я разбиваю первоначальный файл pdf сначала на отдельные страницы, потом каждую страницу объединяю со страницей где изготовлена гиперссылка…
— Это всё делает программа pdftk …

Не понятно, ведь команда

Код: [Выделить]

pdftk 1.pdf 2.pdf cat output 3.pdfсклеивает два файла (при чем не обязательно одностраничных) в один, но не накладывает их друг на друга.

Как наложить один pdf на другой?

Нулевую страницу вставлять бы не хотелось. Это можно сделать командой выше.
Желательно вставить живой урл именно на первой странице.

adawdp · « **Ответ #8 :** 29 Марта 2016, 05:47:07 »

2016 Mar 28; 10:46 PM

— Ubu12.04ntu, наложить один pdf на другой у меня не получилось

. Один человек мне посоветовал попробовать использовать в pdftk fill_form option мол якобы там заложены “скрытые возможности” создать ссылку. Это было его предположение. Мои знания не позволили мне реализовать “скрытые возможности”

… Скорее всего знаний недостаточно…
— Рекомендуют также читать PDF Hacks, но это советы из разряда: „Хочешь быть счастливым — будь им!!!

“
— Попробую завтра сделать clickable watermark using the stamp method там где-то что-то подобное в руководстве я вычитал… Странно как-то неужели никто никогда не делал…

Azure · « **Ответ #9 :** 29 Марта 2016, 10:35:23 »

watermark умеет накладывать convert из пакета imagemagic… Алгоритм такой — вырезаем страницу, накладываем знак, объединяем страницу и оставшиеся.

ubu12.04ntu · « **Ответ #10 :** 29 Марта 2016, 11:47:44 »

можно пример команды на этапе наложения? Умеет ли накладывать ссылки?

adawdp · « **Ответ #11 :** 29 Марта 2016, 15:50:07 »

2016 Mar 29; 08:49 AM; Oakville, ON, Canada.

— Сначала образец готового файла в единичном экземпляре. То что можно для одного файла, можно проделать и с остальными.
https://drive.google.com/file/d/0BxXFe9FXJohUOFlRcVNSY1FjRFE/view?usp=sharing
— Действия:
-Изготавливаем пустой лист нужного формата (А-4 во вложении) с кликабельной ссылкой. У меня не открылась из системы, но открывается если pdf открыть в браузере, не разбирался почему. Использовал программу Master PDF Editor 3.6.
-Вырезаем первый лист из файла pdf куда нужно вставить кликабельную ссылку.

Код: (bash) [Выделить]

pdftk ВесьФайл.pdf cat 1 output ПерваяСтраница.pdf-Накладываем сначала ссылку как текст (в реальности первую страницу на страницу со ссылкой)

Код: (bash) [Выделить]

pdftk ПустойЛистСоСсылкой.pdf stamp ПерваяСтраница.pdf output ЛистС_ТекстомСсылки.pdf

-Делаем первый лист с кликабельной ссылкой.

Код: (bash) [Выделить]

pdftk ПустойЛистСоСсылкой.pdf stamp ЛистС_ТекстомСсылки.pdf output ПервыйЛистС_КликабельнойСсылкой.pdf

— Дальше следуют операции вырезания и слияния лень описывать там используется одна и та же команда.
— Всё это нужно объединить в скрипт и сделать так, чтобы этот скрипт последовательно производил эту операцию над каждым файлом.
— Всё времени нет, поехал потрудиться слегка

.

ubu12.04ntu · « **Ответ #12 :** 29 Марта 2016, 15:58:13 »

Красота! Только бы сделать скрипт и все супер!

А зачем нужно дважды накладывать ПустойЛистСоСсылкой.pdf ?
Поменяйте порядок файлов в команде - даже отделять первую страницу не нужно

Если накладывать на многостраничный файл 3.pdf ссылку, то на выходе получим одностраничный файл с наложенной ссылкой. (наложится на первую страницу файла 3.pdf)
Делается все в ДВА хода
1)

Код: [Выделить]

pdftk url.pdf stamp Исх.pdf output ОблСоСсыл.pdfа итог получается второй командой
2)

Код: [Выделить]

pdftk A=ОблСоСсыл.pdf B=Исх.pdf cat A B2-end output Итог.pdf
Осталось довести до полного автоматизма

serchik · « **Ответ #13 :** 29 Марта 2016, 20:15:44 »

А вот и подоспела версия на Python. Код работает для страниц любых размеров. Предварительно устанавливаем следующие пакеты:

Код: [Выделить]

sudo apt-get install python-reportlab python-pip
sudo pip2 install pypdf2
sudo pip2 install python-magic

(Нажмите, чтобы показать/скрыть)

Код: (python) [Выделить]

#!/usr/bin/env python2

import argparse
import PyPDF2
import magic
import mimetypes
import os, sys
import StringIO
from reportlab.pdfgen import canvas
from reportlab.lib.units import cm
from reportlab.lib.colors import HexColor

def is_pdf(path, check):
    if check == 'lazy':
        return is_pad_lazy(path)
    else:
        return is_pdf_trustworthy(path)

def is_pdf_lazy(path):
    mime_type = mimetypes.guess_type(path)
    if mime_type[0] and mime_type[0] == "application/pdf":
        return True
    return False

def is_pdf_trustworthy(path):
    if is_pdf_lazy(path):
        if 'PDF' in magic.from_file(path):
            return True
    return False

def make_list_pdfs_by(path, validate, recursive=False):
    pdfs = []
    for rootdir, dirs, filenames in os.walk(path):
        full_filenames = [os.path.join(rootdir, filename).decode('utf-8') for filename in filenames]
        pdfs.extend([full_filename for full_filename in full_filenames if is_pdf(full_filename, validate)])
        if not recursive:
            break
    return pdfs

def make_overlay_pdf(watermark, position, font, fontsize, mediabox):
    lowerLeft = (mediabox.lowerLeft[0].as_numeric(), mediabox.lowerLeft[1].as_numeric())
    lowerRight = (mediabox.lowerRight[0].as_numeric(), mediabox.lowerRight[1].as_numeric())
    upperLeft = (mediabox.upperLeft[0].as_numeric(), mediabox.upperLeft[1].as_numeric())
    upperRight = (mediabox.upperRight[0].as_numeric(), mediabox.upperRight[1].as_numeric())
    width_page = lowerRight[0] - lowerLeft[0]
    height_page = upperLeft[1] - lowerLeft[1]
    margin = {'top': 0.5*cm, 'right': 1*cm, 'bottom': 1*cm, 'left': 1*cm} # margin for top right bottom left in cm
    packet = StringIO.StringIO()
    canva = canvas.Canvas(packet, pagesize=(width_page, height_page))
    canva.setFont(font, fontsize)
    watermark_width = canva.stringWidth(watermark, font, fontsize)
    canva.setFillColor(HexColor(0x0645AD))
    if position == 'top-left':
        x = upperLeft[0] + margin['left']
        y = upperLeft[1] - margin['top'] - fontsize
    elif position == 'top-right':
        x = upperRight[0] - (margin['right'] + watermark_width)
        y = upperRight[1] - margin['top'] - fontsize
    elif position == 'bottom-left':
        x = lowerLeft[0] + margin['left']
        y = lowerLeft[1] + margin['bottom']
    elif position == 'bottom-right':
        x = lowerRight[0] - (margin['right'] + watermark_width)
        y = lowerRight[1] + margin['bottom']
    elif position == 'top-middle':
        x = upperLeft[0] + (upperRight[0]-upperLeft[0])/2.0 - watermark_width/2.0
        y = upperRight[1] - margin['top'] - fontsize
    elif position == 'bottom-middle':
        x = lowerLeft[0] + (lowerRight[0] - lowerLeft[0])/2.0 - watermark_width/2.0
        y = lowerLeft[1] + margin['bottom']
    canva.drawString(x, y, watermark)
    canva.linkURL(watermark, (x, y, x+watermark_width, y+fontsize))
    canva.save()
    packet.seek(0)
    return PyPDF2.PdfFileReader(packet)

def make_watermark(args):
    watermark = args.watermark
    position = args.pos_watermark
    font = args.font
    fontsize = int(args.fontsize)
    for filename in make_list_pdfs_by(args.PDFs, args.validate, args.recursive):
        existing_pdf = PyPDF2.PdfFileReader(file(filename, "rb"))
        page = existing_pdf.getPage(0)
        overlay_pdf = make_overlay_pdf(watermark, position, font, fontsize, page.mediaBox)
        page.mergePage(overlay_pdf.getPage(0))
        page.mergePage(overlay_pdf.getPage(0))
        output_pdf = PyPDF2.PdfFileWriter()
        output_pdf.appendPagesFromReader(existing_pdf)
        outputStream = file(os.path.join(os.path.dirname(filename), args.prefix+'_'+os.path.basename(filename)), "wb")
        output_pdf.write(outputStream)
        outputStream.close()
        print "Processing completed for %s" % (filename)


def parse_args():
    parser = argparse.ArgumentParser(usage="%s -w https://forum.ubuntu.ru [-i ~/docs] [-f Times-Roman] "
        "[-s 24] [-p (top-left|top-middle|top-right|bottom-left|bottom-middle|bottom-right)] "
        "[-r] [--prefix your_prefix] [--validate trustworthy]" % (os.path.basename(sys.argv[0])))
    parser.add_argument("-i", "--input", action="store", dest="PDFs", default=".")
    parser.add_argument("-w", "--watermark", action="store", dest="watermark", required=True)
    parser.add_argument("-s", "--font-size", action="store", dest="fontsize", default="18")
    parser.add_argument("-f", "--font", action="store", dest="font", default="Times-Roman")
    parser.add_argument("-p", "--position", action="store", dest="pos_watermark",
        metavar="position watermark", choices=["top-left", "top-middle", "top-right", "bottom-left", "bottom-middle", "bottom-right"], default='top-left')
    parser.add_argument("-r", "--recursive", action="store_true", dest="recursive", default=False)
    parser.add_argument("--prefix", action="store", dest="prefix", default="overlayed")
    parser.add_argument("--validate", action="store", dest="validate", choices=['lazy', 'trustworthy'], default='lazy')
    return parser.parse_args()

if __name__ == "__main__":
    args = parse_args()
    make_watermark(args)

Пример использования:
./overlaylink2pdf.py -w https://forum.ubuntu.ru -f Times-Roman -s 24 -p top-middle -i /path/to/pdf/ -r --prefix myprefix --validate trustworthy
Опции такие:
-w/--watermark - задает внешнюю ссылку (опция обязательна)
-f/--font - шрифт (укзывать необязательно, по умолчанию используется шрифт Times-Roman)
-s/--font-size - размер шрифта (указывать необязательно, по умолчанию 18 пт.)
-p/--position - позиция ссылки на странице; допускаются следующие значения - top-left, top-middle, top-right, bottom-left, bottom-middle, bottom-right. (указывать необязательно; по умолчанию top-left)
-i/--input - каталог с документами pdf (указывать необязательно; по умолчанию используется текущий каталог)
-r/--recursive - рекурсивно обработать каталог, заданный в опции -i (указывать необязательно; по умолчанию используется нерекурсивная обработка)
--prefix - задает префикс для имен обработанных документов (указывать необязательно, по умолчанию overlayed)
Цвет ссылки (задается как триада однобайтных чисел в шестнадцатеричном формате), а также отступы сверху, снизу, слева, справа (в сантиметрах) можно задать в самом скрипте (лень было выносить в параметры).
--validate - задает способ проверки истинности pdf-файла ("ленивый" и "надежный"); по умолчанию используется ленивая проверка. "Ленивая" проверка основа на проверке MIME-типа по расширению файла, что увеличивает быстродействие и снижает надежность проверки. Таким образом, при ленивой проверке любой файл, созданный командой touch myfile.pdf, будет считаться истинным pdf-файлом, что приведет к необработанному исключению. "Надежный" способ основан на проверке magic number файла, что увеличивает надежность при небольшом снижении производительности.
UPDATE: были устранены ошибки в работе опции --validate и устранены проблемы при обработке файлов, чьи имена содержат кириллицу.
P.S. Дико извиняюсь за очень грубый код.

adawdp · « **Ответ #14 :** 29 Марта 2016, 23:14:49 »

2016 Mar 29; 04:14 PM; Oakville, ON, Canada.

— А скажите, serchik, как можно переделать скрипт для letter, в Канаде о существовании А-4 ещё известно и в очень большом канцелярском магазине иногда даже можно купить такую бумагу

а в США это вообще экзотика.
— Хотя для публикации в сети не очень важно А-4 или LETTER но всё же традиция, в Канаде давно принята метрическая система, но ползёт по стране хромая на все 4 конечности

…

— Ubu12.04ntu, я после работы попробую что-то изобразить на bash, но я не программист совсем, даже не amateur

. Понимаю что скрипт как-то должен быть включен в переменную в цикле, буду читать рекомендации может сделаю…

Форум русскоязычного сообщества Ubuntu

Автор Тема: Пакетное наложение на страницу PDF-файла гиперссылки на сайт (Прочитано 4551 раз)

ubu12.04ntu

Пакетное наложение на страницу PDF-файла гиперссылки на сайт

ubu12.04ntu

Re: Пакетное наложение на страницу PDF-файла гиперссылки на сайт

serchik

Re: Пакетное наложение на страницу PDF-файла гиперссылки на сайт

ubu12.04ntu

Re: Пакетное наложение на страницу PDF-файла гиперссылки на сайт

adawdp

Re: Пакетное наложение на страницу PDF-файла гиперссылки на сайт

ubu12.04ntu

Re: Пакетное наложение на страницу PDF-файла гиперссылки на сайт

adawdp

Re: Пакетное наложение на страницу PDF-файла гиперссылки на сайт

ubu12.04ntu

Re: Пакетное наложение на страницу PDF-файла гиперссылки на сайт

adawdp

Re: Пакетное наложение на страницу PDF-файла гиперссылки на сайт

Azure

Re: Пакетное наложение на страницу PDF-файла гиперссылки на сайт

ubu12.04ntu

Re: Пакетное наложение на страницу PDF-файла гиперссылки на сайт

adawdp

Re: Пакетное наложение на страницу PDF-файла гиперссылки на сайт

ubu12.04ntu

Re: Пакетное наложение на страницу PDF-файла гиперссылки на сайт

serchik

Re: Пакетное наложение на страницу PDF-файла гиперссылки на сайт

adawdp

Re: Пакетное наложение на страницу PDF-файла гиперссылки на сайт