Форум русскоязычного сообщества Ubuntu


Следите за новостями русскоязычного сообщества Ubuntu в Twitter-ленте @ubuntu_ru_loco

Автор Тема: Как сохранить развёрнутый html? [Решено]  (Прочитано 1106 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн ase66

  • Автор темы
  • Участник
  • *
  • Сообщений: 191
    • Просмотр профиля
Как сохранить развёрнутый html с открытыми спойлерами? Даите совет wget, httrack или curl, можно прямую команду для броузера. Но только если он будет работать в фоне, без gui. Или если обязательно нужно каждый раз открывать и закрывать броузер на каждую страницу для сохранения, то пусть это будет какой нибудь приметив, типа Dillo. Для скорости.
« Последнее редактирование: 18 Марта 2020, 11:11:02 от zg_nico »

Оффлайн bezbo

  • Заслуженный пользователь
  • Старожил
  • *
  • Сообщений: 1874
    • Просмотр профиля
Re: Как сохранить развёрнутый html?
« Ответ #1 : 02 Сентября 2019, 14:22:43 »
wget, не?

wget:
--recursive
--page-requisites

Оффлайн ase66

  • Автор темы
  • Участник
  • *
  • Сообщений: 191
    • Просмотр профиля
Re: Как сохранить развёрнутый html?
« Ответ #2 : 02 Сентября 2019, 14:45:35 »

--recursive нельзя, это качает чуть не весь сайт. --page-requisites не берёт, можете сами проверить на этой страничке:

launchpad.net/~mrazavi/+archive/ubuntu/gvm/+packages

Оффлайн andytux

  • Заслуженный пользователь
  • Старожил
  • *
  • Сообщений: 7973
    • Просмотр профиля
Re: Как сохранить развёрнутый html?
« Ответ #3 : 02 Сентября 2019, 14:58:46 »
Цитировать
проверить на этой страничке:
launchpad.net/~mrazavi/+archive/ubuntu/gvm/+packages
Адрес самого пакета:
https://launchpad.net/~mrazavi/+archive/ubuntu/gvm/+files/gsad_8.0.0-3_amd64.debОтличаются:
+packages
+files
Может это свойство общее. Просто самому подменять.

Оффлайн ase66

  • Автор темы
  • Участник
  • *
  • Сообщений: 191
    • Просмотр профиля
Re: Как сохранить развёрнутый html?
« Ответ #4 : 03 Сентября 2019, 10:27:09 »
Ну во первых +files во всех личных ppa всегда - Error not found, Lost something?

Мне же не мышкой нужно кликнуть по спойлерам, а автоматом скачать 31000 страниц на которых должны быть открыты спойлеры с ссылками на .deb

Оффлайн andytux

  • Заслуженный пользователь
  • Старожил
  • *
  • Сообщений: 7973
    • Просмотр профиля
Re: Как сохранить развёрнутый html?
« Ответ #5 : 03 Сентября 2019, 11:18:08 »
Цитировать
+files во всех личных ppa всегда - Error not found, Lost something?
Но ведь файл скачивается отсюда.
В том списке, что собрал, заменяй "packages" на "files" и качай:
https://launchpad.net/~mrazavi/+archive/ubuntu/gvm/+files/*.deb

Пользователь добавил сообщение 03 Сентября 2019, 11:41:44:
"Факир был пьян фокус не удался."
Ошибка wget: "Wildcards not supported in HTTP." На ftp прокатывает.
« Последнее редактирование: 03 Сентября 2019, 11:41:44 от andytux »

Оффлайн zg_nico

  • Заслуженный пользователь
  • Почётный модератор
  • Старожил
  • *
  • Сообщений: 3512
  • Nil mortalibus arduum est
    • Просмотр профиля
Re: Как сохранить развёрнутый html?
« Ответ #6 : 05 Сентября 2019, 09:59:57 »
Как сохранить развёрнутый html с открытыми спойлерами?
Что Вы имеете в виду? Если задача, которую Вы перед собой ставите, сводится к тому, что Вы хотите задавать некоей программе web-адрес, и она (программа) должна сохранять в виде файла на диске html-страничку, которая находится по этому адресу в сети, при этом на страничке должны быть открыты все спойлеры, - то искомой Вами программой является самописный парсер.
Пример, который Вы привели: необходимо в дереве DOM в элементе table с id='packages_list' выполнить click на каждом элементе a, id которого содержит в себе текст "pub" (это действие приведет к развертыванию спойлеров), после чего сохранить innerHTML всей страницы в текстовый файл на диске (имейте в виду при этом, что для того, чтобы web-страница выглядела так же как в браузере, придется копировать отдельно стили оформления и отдельно подгружать картинки [последнее я не реализовывал]). Если я правильно понял Вашу задачу, - смотреть в данном случае следует в сторону python и selenium. Пример такого парсера под спойлером.
(Нажмите, чтобы показать/скрыть)
« Последнее редактирование: 05 Сентября 2019, 10:12:24 от zg_nico »
Thunderobot G150-D2: Intel SkyLake Core i7-6700HQ 2.60GHz, 8Gb DDR4 2133 MHz, Intel HD530, NVidia GeForce GTX 960M 2Gb.  Ubuntu 16.04 64x [Unity], KUbuntu 18.04 64x.

Оффлайн ase66

  • Автор темы
  • Участник
  • *
  • Сообщений: 191
    • Просмотр профиля
Re: Как сохранить развёрнутый html?
« Ответ #7 : 06 Сентября 2019, 08:16:42 »
Вот это да! Обязательно всё попробую на следующем прогоне.

Но я уже скачал и распаковал 25% личных ppa с launchpad. В наличии 127 эксклюзивных программ (GUI с собственной иконкой), и ещё 60 вариаций программ существующих в стандартном репе Ubuntu.
Т.е. почти полный скан launchpad на поддерживаемые сейчас ubuntu 16.04, 18.04 и выше даст около 500-750 эксклюзивных программ.

Я нашёл другой способ (кривой), добавил в каждую строку /+builds?build_state=built

там ссылки на страницы с последними обновлениями, скачал всё wget в одну папку, сохранились они так - +builds?build_state=built.1 .2 .3 и т.д.

собрал ссылки

grep -Ihr 'https://launchpad.net/~'  > urlALL2-clear+ppas10.txt

удалил мусор и все старые версии ubuntu, затем скормил список urlALL2-clear+ppas52.txt вот этому:

#!/bin/sh
Linkie=$(cat urlALL2-clear+ppas52.txt)

  wget -O - $Linkie | grep -o 'https://.*\.deb"' > urlALL2-clear+ppas52-D.txt

получил список ссылок на скачивание .deb

Ещё раз удалил всё тяжёлое, мусор, и все старые версии ubuntu получилось всего 60 Гб (25% launchpad). Мне вполне по силам скачать и распаковать по частям.

Всем спасибо за участие.

 

Страница сгенерирована за 0.02 секунд. Запросов: 19.