Автор Тема: Как сохранить развёрнутый html? [Решено] (Прочитано 1138 раз)

ase66 · « : 02 Сентября 2019, 11:24:04 »

Как сохранить развёрнутый html с открытыми спойлерами? Даите совет wget, httrack или curl, можно прямую команду для броузера. Но только если он будет работать в фоне, без gui. Или если обязательно нужно каждый раз открывать и закрывать броузер на каждую страницу для сохранения, то пусть это будет какой нибудь приметив, типа Dillo. Для скорости.

bezbo

wget, не?

wget:
--recursive
--page-requisites

ase66

--recursive нельзя, это качает чуть не весь сайт. --page-requisites не берёт, можете сами проверить на этой страничке:

launchpad.net/~mrazavi/+archive/ubuntu/gvm/+packages

andytux

Цитировать

проверить на этой страничке:
launchpad.net/~mrazavi/+archive/ubuntu/gvm/+packages

Адрес самого пакета:

Код: [Выделить]

https://launchpad.net/~mrazavi/+archive/ubuntu/gvm/+files/gsad_8.0.0-3_amd64.debОтличаются:

Код: [Выделить]

+packages
+files

Может это свойство общее. Просто самому подменять.

ase66

Ну во первых +files во всех личных ppa всегда - Error not found, Lost something?

Мне же не мышкой нужно кликнуть по спойлерам, а автоматом скачать 31000 страниц на которых должны быть открыты спойлеры с ссылками на .deb

andytux

Цитировать

+files во всех личных ppa всегда - Error not found, Lost something?

Но ведь файл скачивается отсюда.
В том списке, что собрал, заменяй "packages" на "files" и качай:

Код: [Выделить]

https://launchpad.net/~mrazavi/+archive/ubuntu/gvm/+files/*.deb

Пользователь добавил сообщение 03 Сентября 2019, 11:41:44:

"Факир был пьян фокус не удался."
Ошибка wget: "Wildcards not supported in HTTP." На ftp прокатывает.

zg_nico

Цитата: ase66 от 02 Сентября 2019, 11:24:04

Как сохранить развёрнутый html с открытыми спойлерами?

Что Вы имеете в виду? Если задача, которую Вы перед собой ставите, сводится к тому, что Вы хотите задавать некоей программе web-адрес, и она (программа) должна сохранять в виде файла на диске html-страничку, которая находится по этому адресу в сети, при этом на страничке должны быть открыты все спойлеры, - то искомой Вами программой является самописный парсер.
Пример, который Вы привели: необходимо в дереве DOM в элементе table с id='packages_list' выполнить click на каждом элементе a, id которого содержит в себе текст "pub" (это действие приведет к развертыванию спойлеров), после чего сохранить innerHTML всей страницы в текстовый файл на диске (имейте в виду при этом, что для того, чтобы web-страница выглядела так же как в браузере, придется копировать отдельно стили оформления и отдельно подгружать картинки [последнее я не реализовывал]). Если я правильно понял Вашу задачу, - смотреть в данном случае следует в сторону python и selenium. Пример такого парсера под спойлером.

(Нажмите, чтобы показать/скрыть)

Чтоб работало - предварительно установите зависимости (скрипт писался с прицелом на использование firefox; может быть задействован любой иной браузер, но тогда скрипт надо модифицировать, и зависимости будут иными):

Код: [Выделить]

sudo apt update && sudo apt install --no-install-recommends python-selenium && sudo apt install firefoxdriver firefox-geckodriver

Далее нижеприведенный код сохраните в файл на диске, например, в ~/myparser.py и вызывайте его из скрипта bash (или из терминала), передавая необходимые Вам параметры:

Код: [Выделить]

python ~/myparser.py --url https://launchpad.net/~mrazavi/+archive/ubuntu/gvm/+packages --fname $HOME/myfile.htmlЕсли вызвать, не передавая параметры, - скрипт будет выполнен с URL и именем файла, которые я прописал в нем по-дефолту.
Сам код парсера:

Код: (python) [Выделить]

#!/usr/bin/env python
#coding=utf-8
from selenium import webdriver                      #работа с веб-движками вообще
import time                                         #временная задержка
import argparse                                     #получение аргументов из командной строки
import codecs                                       #работа с файлами
import os                                           #работа с операционной системой и выполнение команд bash

#процедура создания браузера и навигации на адрес
def open_firefox(url):
    driver = webdriver.Firefox()                    #создаем подконтрольный экземпляр браузера
    driver.get(url)                                 #выполняем навигацию на адрес
    return driver

#развертывание спойлеров
def actions_on_web_page(driver):
    #находим и разворачиваем спойлеры на странице
    table=driver.find_element_by_xpath("//table[@id='packages_list']")
    for cur_spoiler in table.find_elements_by_xpath(".//a[contains(@href,'pub')]"):
        cur_spoiler.click()                         #кликаем по спойлеру
        time.sleep(0.5)                             #ждем полсекунды, пока прогрузится; если у Вас медленное соединение - увеличьте этот интервал времени
    return driver.page_source                       #возвращаем исходный код страницы 

#получение css стилей
def get_css(driver):
    #находим ссылку на css на странице:
    link=driver.find_element_by_xpath("//link[@type='text/css']")
    driver.get(link.get_attribute("href"))          #выполняем навигацию на адрес
    return driver.page_source                       #возвращаем исходный код страницы

#сохранение в файл
def save_out_as_a_file(html_source, css_input, filename):
    fp = codecs.open(filename, 'w', encoding='utf-8')                           #открываем файл для записи
    fp.write('<!DOCTYPE html><html><meta charset="utf-8"><head>')               #заголовок файла
    fp.write('<style type="text/css">'+css_input+'</style>')                    #стили
    fp.write('</head><body>'+html_source+'</body></html>')                      #сам код тела
    fp.close()                                                                  #закрытие файла

#Сама программа (разбираем аргументы, и вызываем парсер):
if __name__ == '__main__': 
    #разбираем аргументы командной строки
    callWith=argparse.ArgumentParser() 
    callWith.add_argument('--url', help='web-адрес')
    callWith.add_argument('--fname', help='полное имя файла, куда сохранять результат') 
    args = callWith.parse_args()
    if args.url == None:
        print("URL не передан; берем дефолтный")
        URL="https://launchpad.net/~mrazavi/+archive/ubuntu/gvm/+packages"
    else:
        URL=args.url
    if args.fname == None:
        print("Имя файла не передано; берем дефолтное")
        fname=os.getenv('HOME')+'/launchpad_mrazavi.html'
    else:
        fname=args.fname
    print("Выполняется парсирование "+URL+" с сохранением в файл "+fname+"...")
    browser=open_firefox(URL)                                                   #Открываем браузер, выполняем навигацию
    result=actions_on_web_page(browser)                                         #Развертываем спойлеры, получаем исходный код
    styles=get_css(browser)                                                     #Копируем стили
    browser.quit()                                                              #браузер больше не нужен - закрываем
    save_out_as_a_file(result,styles,fname)                                     #Генерируем html-файл, сохраняем его на диске
    print("Парсирование завершено, файл сохранен")

ase66

Вот это да! Обязательно всё попробую на следующем прогоне.

Но я уже скачал и распаковал 25% личных ppa с launchpad. В наличии 127 эксклюзивных программ (GUI с собственной иконкой), и ещё 60 вариаций программ существующих в стандартном репе Ubuntu.
Т.е. почти полный скан launchpad на поддерживаемые сейчас ubuntu 16.04, 18.04 и выше даст около 500-750 эксклюзивных программ.

Я нашёл другой способ (кривой), добавил в каждую строку /+builds?build_state=built

там ссылки на страницы с последними обновлениями, скачал всё wget в одну папку, сохранились они так - +builds?build_state=built.1 .2 .3 и т.д.

собрал ссылки

grep -Ihr 'https://launchpad.net/~' > urlALL2-clear+ppas10.txt

удалил мусор и все старые версии ubuntu, затем скормил список urlALL2-clear+ppas52.txt вот этому:

Код: [Выделить]

#!/bin/sh
Linkie=$(cat urlALL2-clear+ppas52.txt)

  wget -O - $Linkie | grep -o 'https://.*\.deb"' > urlALL2-clear+ppas52-D.txt

получил список ссылок на скачивание .deb

Ещё раз удалил всё тяжёлое, мусор, и все старые версии ubuntu получилось всего 60 Гб (25% launchpad). Мне вполне по силам скачать и распаковать по частям.

Всем спасибо за участие.

Форум русскоязычного сообщества Ubuntu

Автор Тема: Как сохранить развёрнутый html? [Решено] (Прочитано 1138 раз)

ase66

Как сохранить развёрнутый html? [Решено]

bezbo

Re: Как сохранить развёрнутый html?

ase66

Re: Как сохранить развёрнутый html?

andytux

Re: Как сохранить развёрнутый html?

ase66

Re: Как сохранить развёрнутый html?

andytux

Re: Как сохранить развёрнутый html?

zg_nico

Re: Как сохранить развёрнутый html?

ase66

Re: Как сохранить развёрнутый html?