Форум русскоязычного сообщества Ubuntu


Следите за новостями русскоязычного сообщества Ubuntu в Twitter-ленте @ubuntu_ru_loco

Автор Тема: Автоматическое сохранение вэб-страниц в PDF  (Прочитано 847 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн gamayun

  • Автор темы
  • Активист
  • *
  • Сообщений: 823
  • Кто ищет, тот найдёт, может быть...
    • Просмотр профиля
Возникла необходимость каждый день заходить на определенную страницу и сохранять ее в PDF в определенную папку на ж.д.Надо как-то автоматизировать этот процесс.Через firefox или wget или как-то еще.Главное экспорт в PDF.

Пользователь решил продолжить мысль 18 Декабрь 2015, 06:57:32:
Задача не решаема?  :-\
« Последнее редактирование: 18 Декабрь 2015, 06:57:32 от gamayun »
Не бери в голову

Оффлайн guju

  • Новичок
  • *
  • Сообщений: 10
    • Просмотр профиля
Re: Автоматическое сохранение вэб-страниц в PDF
« Ответ #1 : 25 Декабрь 2015, 14:46:31 »
А скриншот страницы, "упакованный" в pdf, не подойдет?

Оффлайн gamayun

  • Автор темы
  • Активист
  • *
  • Сообщений: 823
  • Кто ищет, тот найдёт, может быть...
    • Просмотр профиля
Re: Автоматическое сохранение вэб-страниц в PDF
« Ответ #2 : 25 Декабрь 2015, 17:13:29 »
А скриншот страницы, "упакованный" в pdf, не подойдет?
Еслиб она вся вмещалась в экран, я б так и сделал
Не бери в голову

Оффлайн wajnon

  • Старожил
  • *
  • Сообщений: 2778
    • Просмотр профиля
Re: Автоматическое сохранение вэб-страниц в PDF
« Ответ #3 : 25 Декабрь 2015, 17:36:34 »

Оффлайн guju

  • Новичок
  • *
  • Сообщений: 10
    • Просмотр профиля
Re: Автоматическое сохранение вэб-страниц в PDF
« Ответ #4 : 25 Декабрь 2015, 18:31:49 »
Цитировать
Если б она вся вмещалась в экран, я б так и сделал
Вариант 1.
В XnView есть функция "Снимок веб-страницы". Вводите урл, и программа снимает скришнот с прокруткой, вся страница полностью.
Автоматизация этой операции - уже второй вопрос (абсолютно решаемый).

Вариант 2.
Я бы поискал в сторону консольных утилит, выполняющих то же самое, что в п.1. Наверняка с линуксе есть такие.




Оффлайн gamayun

  • Автор темы
  • Активист
  • *
  • Сообщений: 823
  • Кто ищет, тот найдёт, может быть...
    • Просмотр профиля
Re: Автоматическое сохранение вэб-страниц в PDF
« Ответ #5 : 27 Декабрь 2015, 08:53:56 »
guju,
XnView работает http://storage9.static.itmages.ru/i/15/1227/h_1451195285_3079729_f5c88afdc7.jpg
Если автоматизация вопрос решаемый,то почему не через FF.Тоже программа.Тут типа скрипта надо и в cron,наверно...
Сейчас это делается через FF в ручном режиме(печать в PDF)
Не бери в голову

Оффлайн Tamer4

  • Активист
  • *
  • Сообщений: 696
    • Просмотр профиля
Re: Автоматическое сохранение вэб-страниц в PDF
« Ответ #6 : 27 Декабрь 2015, 09:53:16 »
Можно с помощью двух утилит:
1 - wget
2 - wkhtmltopdf
Сначала сохраняешь страницу в текущую папку, подом делаешь из html файла pdf.
wget -nd -pHEKk https://forum.ubuntu.ru/index.php?topic=271002.0 && wkhtmltopdf index.php?topic=271002.0.html output.pdf

Оффлайн gamayun

  • Автор темы
  • Активист
  • *
  • Сообщений: 823
  • Кто ищет, тот найдёт, может быть...
    • Просмотр профиля
Re: Автоматическое сохранение вэб-страниц в PDF
« Ответ #7 : 27 Декабрь 2015, 12:28:14 »
Можно с помощью двух утилит:
1 - wget
2 - wkhtmltopdf
Сначала сохраняешь страницу в текущую папку, подом делаешь из html файла pdf.
wget -nd -pHEKk https://forum.ubuntu.ru/index.php?topic=271002.0 && wkhtmltopdf index.php?topic=271002.0.html output.pdf
Благодарю,работает.Единственно PDF "тяжеловат"как-то.Чтоб просмотреть его 300метров оперативки жрется.
Вот файл http://my-files.ru/6en3t2
Скрипт я слеплю,через tmp пусть работает,чтоб исходный мусор удалялся.Можно сказать почти решено.Но может еще варианты?
Не бери в голову

Оффлайн Tamer4

  • Активист
  • *
  • Сообщений: 696
    • Просмотр профиля
Re: Автоматическое сохранение вэб-страниц в PDF
« Ответ #8 : 27 Декабрь 2015, 15:39:36 »
gamayun,
Похоже что-то не так получилось. У меня этот файл 340КБ весит.  http://my-files.ru/lflynw

Оффлайн gamayun

  • Автор темы
  • Активист
  • *
  • Сообщений: 823
  • Кто ищет, тот найдёт, может быть...
    • Просмотр профиля
Re: Автоматическое сохранение вэб-страниц в PDF
« Ответ #9 : 27 Декабрь 2015, 16:03:32 »
Tamer4,
Наверно.Ладно,направление есть,будем покопать.

Пользователь решил продолжить мысль 27 Декабрь 2015, 16:14:10:
Покопал.Wget на фиг не нужен получился.wkhtmltopdf <адрес страницы> output.pdf
Дальше наверно допилю сам.
« Последнее редактирование: 27 Декабрь 2015, 16:14:10 от gamayun »
Не бери в голову

Оффлайн Tamer4

  • Активист
  • *
  • Сообщений: 696
    • Просмотр профиля
Re: Автоматическое сохранение вэб-страниц в PDF
« Ответ #10 : 27 Декабрь 2015, 16:39:50 »
Tamer4,
Наверно.Ладно,направление есть,будем покопать.

Пользователь решил продолжить мысль [time]27 Декабрь 2015, 17:14:10[/time]:
Покопал.Wget на фиг не нужен получился.wkhtmltopdf <адрес страницы> output.pdf
Дальше наверно допилю сам.
А у меня как раз напрямую через wkhtmltopdf не получается страницу получить (а вместо ошибки она мне --help выдает), поэтому и написал по двум утилитам.

Пользователь решил продолжить мысль [time]27 Декабрь 2015, 19:35:43[/time]:
Единственно PDF "тяжеловат"как-то.Чтоб просмотреть его 300метров оперативки жрется.
Может параметр -d поможет уменьшить разрешение и соответственно размер? http://wkhtmltopdf.org/usage/wkhtmltopdf.txt
Странно в мануале с утилитой этого нет.
wkhtmltopdf -d 75 https://forum.ubuntu.ru/index.php?topic=271002 out.pdfС параметром -d 75 у меня получился файл 220КБ
Тот же эффект от параметра -l
« Последнее редактирование: 27 Декабрь 2015, 19:40:15 от Tamer4 »

Оффлайн gamayun

  • Автор темы
  • Активист
  • *
  • Сообщений: 823
  • Кто ищет, тот найдёт, может быть...
    • Просмотр профиля
Re: Автоматическое сохранение вэб-страниц в PDF
« Ответ #11 : 28 Декабрь 2015, 09:36:25 »
Накидал пробный скриптик
(Нажмите, чтобы показать/скрыть)
В терминале работает
(Нажмите, чтобы показать/скрыть)
В crone никак
(Нажмите, чтобы показать/скрыть)
Хотя первые три скрипта работают
ЧЯДНТ

Пользователь решил продолжить мысль 29 Декабрь 2015, 06:19:57:
5 8 * * *  export DISPLAY=:0 && /home/ivanich/script_pdf.sh
Вот так скрипт работает.Всем спасибо.
P.S.Жаль что мало спецов по скриптам :'(,у меня-то знания ограничены в этой части.
« Последнее редактирование: 29 Декабрь 2015, 06:19:57 от gamayun »
Не бери в голову

Оффлайн Linux89

  • Новичок
  • *
  • Сообщений: 4
    • Просмотр профиля
Мне помог интернет сервис https://docs.zone/web-to-pdf довольно просто сохранить веб-страницу в формате pdf и не нужно заморачиваться

Оффлайн gamayun

  • Автор темы
  • Активист
  • *
  • Сообщений: 823
  • Кто ищет, тот найдёт, может быть...
    • Просмотр профиля
Linux89,
Заморочка была в автоматизации процесса.Полгода все ОК.Раз в сутки определенные сайты по команде скрипта из cron сохраняются в PDF,раз в месяц архивируются и архив переносится на другой раздел диска,а исходники сносятся.Все без моего участия.
Не бери в голову

 

Страница сгенерирована за 0.058 секунд. Запросов: 24.