Форум русскоязычного сообщества Ubuntu


Следите за новостями русскоязычного сообщества Ubuntu в Twitter-ленте @ubuntu_ru_loco

Автор Тема: Загрузка части вэб страницы  (Прочитано 2340 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Cxms

  • Автор темы
  • Активист
  • *
  • Сообщений: 407
    • Просмотр профиля
Загрузка части вэб страницы
« : 15 Января 2016, 20:54:24 »
Хочу уменьшить объем данных при загрузке вэб страниц.
Можно ли wget'ом или curl скачать содержимое только одного html тега?
Или применять правила  от adblock, прописав их в --header, --referer или в --post-data ?

Оффлайн malaziya

  • Новичок
  • *
  • Сообщений: 1
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #1 : 17 Января 2016, 17:14:48 »
а на какой cms делаешь проекты?или сам все пишешь?

Оффлайн imhotepp

  • Новичок
  • *
  • Сообщений: 5
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #2 : 17 Января 2016, 17:15:55 »
я бы советовал сделать данный проект на ***, самая стабильная в данное время



Цитировать
Правила форума
2. На форуме ЗАПРЕЩЕНО
2.15.
Несанкционированно рекламировать и продвигать другие сетевые и несетевые ресурсы, товары, компании, услуги; так же запрещён любой PR.

--HP
« Последнее редактирование: 14 Апреля 2016, 22:51:20 от Haron Prime »

Оффлайн Cxms

  • Автор темы
  • Активист
  • *
  • Сообщений: 407
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #3 : 21 Января 2016, 01:05:34 »
Не проект. просто нужно часто получать какой-то текст с веб страницы wget'ом или curl.
А размер страницы в 100-500 раз больше чем размер полезных данных. Вот поэтому и нужно уменьшить объем данных при загрузке вэб страниц.

Оффлайн Heider

  • Старожил
  • *
  • Сообщений: 1269
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #4 : 21 Января 2016, 02:07:36 »
Веб-сервер все равно по http-запросу выдаст весь документ. А значит он весь пройдет через сетевую карту. Если его не оборвать, конечно. wget может устанавливать квоту в байтах (параметр --quota) да и то при скачивании списка файлов. Если загружается один файл, то он грузится до конца, даже если квота меньше размера файла.

То есть, Ваша задача может решаться только на стороне сервера.

Оффлайн alsoijw

  • Старожил
  • *
  • Сообщений: 4062
  • Fedora 25 GNOME 3 amd64
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #5 : 21 Января 2016, 02:09:48 »
Cxms, теоретически можно попытаться попросить докачать wget. Но скорее всего сервер веб страниц не поддерживает докачку.

Пользователь решил продолжить мысль 21 Января 2016, 02:15:02:
Если его не оборвать, конечно.
На каком уровне нужно обрывать?
« Последнее редактирование: 21 Января 2016, 02:15:02 от alsoijw »
Мало видеть нам начало - надо видеть и конец. Если видишь ты создание - значит где-то есть ТВОРЕЦ
Многие жалуются: геометрия в жизни не пригодилась. Ямб от хорея им приходится отличать ежедневно?

Оффлайн Cxms

  • Автор темы
  • Активист
  • *
  • Сообщений: 407
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #6 : 22 Января 2016, 23:25:31 »
Цитировать
Если его не оборвать, конечно.
Врядли это вариант, т.к обычно нужные данные расположены где-то середине страницы.

А когда работает adblock, он же посылает серверу шаблоны в header или referer элементов которые не нужно отправлять клиенту?
Или основная страница все равно грузится полностью?

Оффлайн Heider

  • Старожил
  • *
  • Сообщений: 1269
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #7 : 23 Января 2016, 00:09:26 »
Я знаю только как спереди подрезать:
wget tv.yandex.ru --start-pos=120kотрежет первые 120kB

А как отрезать хвост я не знаю, может быть, какие-нибудь другие загрузчики режут хвост.
« Последнее редактирование: 23 Января 2016, 00:44:10 от Heider »

Оффлайн unimix

  • Активист
  • *
  • Сообщений: 537
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #8 : 25 Января 2016, 15:13:37 »
А когда работает adblock, он же посылает серверу шаблоны в header или referer элементов которые не нужно отправлять клиенту?
Или основная страница все равно грузится полностью?

Adblock обрабатывает полученные данные после получения данных с сервера. Скачал всё и вырезал ненужное или обрабатывается поток получаемых данных. В любом случае, данные получаются полностью, а Adblock фильтрует эти данные.

Если бы Adblock отправлял просьбы на сервер не выводить рекламу, то его бы посылали лесом.

Оффлайн Cxms

  • Автор темы
  • Активист
  • *
  • Сообщений: 407
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #9 : 15 Мая 2016, 09:20:45 »
Я знаю только как спереди подрезать:
wget tv.yandex.ru --start-pos=120kотрежет первые 120kB

А как отрезать хвост я не знаю, может быть, какие-нибудь другие загрузчики режут хвост.

вот только щас проверил:
--start-pos - в wget такого параметра нет, и врядли он там был.
Отрезать хвост (ограничить длину данных) можно так:
wget -O - www.site.com/page | dd count=N > FileГде count=N - число блоков по 512 байт (по умолчанию).
Причем загрузка именно оборвется при достижении указаного объема.

Оффлайн EvangelionDeath

  • Администратор
  • Старожил
  • *
  • Сообщений: 3487
  • Ubuntu 22.04 х64
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #10 : 16 Мая 2016, 20:26:39 »
Хочу уменьшить объем данных при загрузке вэб страниц.
Можно ли wget'ом или curl скачать содержимое только одного html тега?
Или применять правила  от adblock, прописав их в --header, --referer или в --post-data ?
используй links, links2 в терминале) Они точно лишнего грузить не станут)

А для парсинга все равно надо грузить полностью Web-страницу.
« Последнее редактирование: 16 Мая 2016, 20:43:45 от EvangelionDeath »
HP Pro 840 G3: Intel i5-6300U, 32GB DDR4 2133MHz, Intel 520, Intel Pro 2500 180GB/Ubuntu 22.04
Dell Latitude 5590: Intel i5-8350U, 16GB DDR4 2400MHz, Intel 620, Samsung 1TB/Ubuntu 22.04

Оффлайн alsoijw

  • Старожил
  • *
  • Сообщений: 4062
  • Fedora 25 GNOME 3 amd64
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #11 : 16 Мая 2016, 21:18:06 »
EvangelionDeath, от уж советчики. Куда денется links перед необходимостью грузить файл целиком?
Мало видеть нам начало - надо видеть и конец. Если видишь ты создание - значит где-то есть ТВОРЕЦ
Многие жалуются: геометрия в жизни не пригодилась. Ямб от хорея им приходится отличать ежедневно?

Оффлайн EvangelionDeath

  • Администратор
  • Старожил
  • *
  • Сообщений: 3487
  • Ubuntu 22.04 х64
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #12 : 16 Мая 2016, 21:29:13 »
 links как минимум не станет грузить картинки, флеш и выполнять скрипты  - такая себе баннерорезка, то есть что бы не мучаться с вгетом и курлом

А о парсинге я написал, как вариант держать у кого-то на серваке скрипт проксирования, что и будет отдавать содержимое только тега
« Последнее редактирование: 16 Мая 2016, 21:33:17 от EvangelionDeath »
HP Pro 840 G3: Intel i5-6300U, 32GB DDR4 2133MHz, Intel 520, Intel Pro 2500 180GB/Ubuntu 22.04
Dell Latitude 5590: Intel i5-8350U, 16GB DDR4 2400MHz, Intel 620, Samsung 1TB/Ubuntu 22.04

Оффлайн alsoijw

  • Старожил
  • *
  • Сообщений: 4062
  • Fedora 25 GNOME 3 amd64
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #13 : 17 Мая 2016, 11:12:29 »
EvangelionDeath, вот есть такие советчики, от которых только вред. Ты смотрел тему? Тут не то что не загружаются банеры, тут даже html файл режется(не думаю что links на это способен).
Мало видеть нам начало - надо видеть и конец. Если видишь ты создание - значит где-то есть ТВОРЕЦ
Многие жалуются: геометрия в жизни не пригодилась. Ямб от хорея им приходится отличать ежедневно?

Оффлайн EvangelionDeath

  • Администратор
  • Старожил
  • *
  • Сообщений: 3487
  • Ubuntu 22.04 х64
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #14 : 17 Мая 2016, 11:23:55 »
EvangelionDeath, вот есть такие советчики, от которых только вред. Ты смотрел тему? Тут не то что не загружаются банеры, тут даже html файл режется(не думаю что links на это способен).
Я вижу, что этот файл режется. Но для того, что бы отрезать надо знать по куда надо резать этот файл (до закрытия нужного тега). Иначе получим или больше (еще куда ни шло) либо меньше (половина инфы к примеру останется где-то там) и придется еще раз тянуть но на этот раз увеличивать размер.
Если уж обсуждать, то стоит обращать внимание не только на функционал (а если точнее возможности), но и на удобство использования. Минимализм - это хорошо, но иногда этот минимализм может вылезти еще большими тратами.

P.S. И да тему смотрел, и свое мнение высказал, как пользователя, так и программиста.

P.P.S. Так же хочу напомнить о такой мелочи, как gzip сжатие. Я вот не знаю, как при этом будет вести себя "режется хтмл"

P.P.P.S. О картинках в base64 тоже наверное слышали?
« Последнее редактирование: 17 Мая 2016, 12:21:19 от EvangelionDeath »
HP Pro 840 G3: Intel i5-6300U, 32GB DDR4 2133MHz, Intel 520, Intel Pro 2500 180GB/Ubuntu 22.04
Dell Latitude 5590: Intel i5-8350U, 16GB DDR4 2400MHz, Intel 620, Samsung 1TB/Ubuntu 22.04

 

Страница сгенерирована за 0.029 секунд. Запросов: 25.