Форум русскоязычного сообщества Ubuntu


Считаете, что Ubuntu недостаточно дружелюбна к новичкам?
Помогите создать новое Руководство для новичков!

Автор Тема: Загрузка части вэб страницы  (Прочитано 1880 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Cxms

  • Автор темы
  • Активист
  • *
  • Сообщений: 407
    • Просмотр профиля
Загрузка части вэб страницы
« : 15 Январь 2016, 20:54:24 »
Хочу уменьшить объем данных при загрузке вэб страниц.
Можно ли wget'ом или curl скачать содержимое только одного html тега?
Или применять правила  от adblock, прописав их в --header, --referer или в --post-data ?

Оффлайн malaziya

  • Новичок
  • *
  • Сообщений: 1
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #1 : 17 Январь 2016, 17:14:48 »
а на какой cms делаешь проекты?или сам все пишешь?

Оффлайн imhotepp

  • Новичок
  • *
  • Сообщений: 5
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #2 : 17 Январь 2016, 17:15:55 »
я бы советовал сделать данный проект на ***, самая стабильная в данное время



Цитировать
Правила форума
2. На форуме ЗАПРЕЩЕНО
2.15.
Несанкционированно рекламировать и продвигать другие сетевые и несетевые ресурсы, товары, компании, услуги; так же запрещён любой PR.

--HP
« Последнее редактирование: 14 Апрель 2016, 22:51:20 от Haron Prime »

Оффлайн Cxms

  • Автор темы
  • Активист
  • *
  • Сообщений: 407
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #3 : 21 Январь 2016, 01:05:34 »
Не проект. просто нужно часто получать какой-то текст с веб страницы wget'ом или curl.
А размер страницы в 100-500 раз больше чем размер полезных данных. Вот поэтому и нужно уменьшить объем данных при загрузке вэб страниц.

Оффлайн Heider

  • Старожил
  • *
  • Сообщений: 1250
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #4 : 21 Январь 2016, 02:07:36 »
Веб-сервер все равно по http-запросу выдаст весь документ. А значит он весь пройдет через сетевую карту. Если его не оборвать, конечно. wget может устанавливать квоту в байтах (параметр --quota) да и то при скачивании списка файлов. Если загружается один файл, то он грузится до конца, даже если квота меньше размера файла.

То есть, Ваша задача может решаться только на стороне сервера.

Оффлайн alsoijw

  • Старожил
  • *
  • Сообщений: 4073
  • Fedora 25 GNOME 3 amd64
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #5 : 21 Январь 2016, 02:09:48 »
Cxms, теоретически можно попытаться попросить докачать wget. Но скорее всего сервер веб страниц не поддерживает докачку.

Пользователь решил продолжить мысль 21 Январь 2016, 02:15:02:
Если его не оборвать, конечно.
На каком уровне нужно обрывать?
« Последнее редактирование: 21 Январь 2016, 02:15:02 от alsoijw »
Мало видеть нам начало - надо видеть и конец. Если видишь ты создание - значит где-то есть ТВОРЕЦ
Многие жалуются: геометрия в жизни не пригодилась. Ямб от хорея им приходится отличать ежедневно?

Оффлайн Cxms

  • Автор темы
  • Активист
  • *
  • Сообщений: 407
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #6 : 22 Январь 2016, 23:25:31 »
Цитировать
Если его не оборвать, конечно.
Врядли это вариант, т.к обычно нужные данные расположены где-то середине страницы.

А когда работает adblock, он же посылает серверу шаблоны в header или referer элементов которые не нужно отправлять клиенту?
Или основная страница все равно грузится полностью?

Оффлайн Heider

  • Старожил
  • *
  • Сообщений: 1250
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #7 : 23 Январь 2016, 00:09:26 »
Я знаю только как спереди подрезать:
wget tv.yandex.ru --start-pos=120kотрежет первые 120kB

А как отрезать хвост я не знаю, может быть, какие-нибудь другие загрузчики режут хвост.
« Последнее редактирование: 23 Январь 2016, 00:44:10 от Heider »

Оффлайн unimix

  • Активист
  • *
  • Сообщений: 537
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #8 : 25 Январь 2016, 15:13:37 »
А когда работает adblock, он же посылает серверу шаблоны в header или referer элементов которые не нужно отправлять клиенту?
Или основная страница все равно грузится полностью?

Adblock обрабатывает полученные данные после получения данных с сервера. Скачал всё и вырезал ненужное или обрабатывается поток получаемых данных. В любом случае, данные получаются полностью, а Adblock фильтрует эти данные.

Если бы Adblock отправлял просьбы на сервер не выводить рекламу, то его бы посылали лесом.

Оффлайн Cxms

  • Автор темы
  • Активист
  • *
  • Сообщений: 407
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #9 : 15 Май 2016, 09:20:45 »
Я знаю только как спереди подрезать:
wget tv.yandex.ru --start-pos=120kотрежет первые 120kB

А как отрезать хвост я не знаю, может быть, какие-нибудь другие загрузчики режут хвост.

вот только щас проверил:
--start-pos - в wget такого параметра нет, и врядли он там был.
Отрезать хвост (ограничить длину данных) можно так:
wget -O - www.site.com/page | dd count=N > FileГде count=N - число блоков по 512 байт (по умолчанию).
Причем загрузка именно оборвется при достижении указаного объема.

Оффлайн EvangelionDeath

  • Администратор
  • Старожил
  • *
  • Сообщений: 3276
  • Ubuntu Mate 16.04 х64
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #10 : 16 Май 2016, 20:26:39 »
Хочу уменьшить объем данных при загрузке вэб страниц.
Можно ли wget'ом или curl скачать содержимое только одного html тега?
Или применять правила  от adblock, прописав их в --header, --referer или в --post-data ?
используй links, links2 в терминале) Они точно лишнего грузить не станут)

А для парсинга все равно надо грузить полностью Web-страницу.
« Последнее редактирование: 16 Май 2016, 20:43:45 от EvangelionDeath »
Fujitsu UH552: Intel Core i3-3217U, 16GB DDR3 1600MHz, Intel HD4000, Intel 535 120GB/Ubuntu 16.04 Mate
HP 625: AMD Athlon P320, 4GB DDR3 1333MHz, AMD HD4250, Seagate Momentus/Ubuntu 14.04 Mate

Оффлайн alsoijw

  • Старожил
  • *
  • Сообщений: 4073
  • Fedora 25 GNOME 3 amd64
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #11 : 16 Май 2016, 21:18:06 »
EvangelionDeath, от уж советчики. Куда денется links перед необходимостью грузить файл целиком?
Мало видеть нам начало - надо видеть и конец. Если видишь ты создание - значит где-то есть ТВОРЕЦ
Многие жалуются: геометрия в жизни не пригодилась. Ямб от хорея им приходится отличать ежедневно?

Оффлайн EvangelionDeath

  • Администратор
  • Старожил
  • *
  • Сообщений: 3276
  • Ubuntu Mate 16.04 х64
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #12 : 16 Май 2016, 21:29:13 »
 links как минимум не станет грузить картинки, флеш и выполнять скрипты  - такая себе баннерорезка, то есть что бы не мучаться с вгетом и курлом

А о парсинге я написал, как вариант держать у кого-то на серваке скрипт проксирования, что и будет отдавать содержимое только тега
« Последнее редактирование: 16 Май 2016, 21:33:17 от EvangelionDeath »
Fujitsu UH552: Intel Core i3-3217U, 16GB DDR3 1600MHz, Intel HD4000, Intel 535 120GB/Ubuntu 16.04 Mate
HP 625: AMD Athlon P320, 4GB DDR3 1333MHz, AMD HD4250, Seagate Momentus/Ubuntu 14.04 Mate

Оффлайн alsoijw

  • Старожил
  • *
  • Сообщений: 4073
  • Fedora 25 GNOME 3 amd64
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #13 : 17 Май 2016, 11:12:29 »
EvangelionDeath, вот есть такие советчики, от которых только вред. Ты смотрел тему? Тут не то что не загружаются банеры, тут даже html файл режется(не думаю что links на это способен).
Мало видеть нам начало - надо видеть и конец. Если видишь ты создание - значит где-то есть ТВОРЕЦ
Многие жалуются: геометрия в жизни не пригодилась. Ямб от хорея им приходится отличать ежедневно?

Оффлайн EvangelionDeath

  • Администратор
  • Старожил
  • *
  • Сообщений: 3276
  • Ubuntu Mate 16.04 х64
    • Просмотр профиля
Re: Загрузка части вэб страницы
« Ответ #14 : 17 Май 2016, 11:23:55 »
EvangelionDeath, вот есть такие советчики, от которых только вред. Ты смотрел тему? Тут не то что не загружаются банеры, тут даже html файл режется(не думаю что links на это способен).
Я вижу, что этот файл режется. Но для того, что бы отрезать надо знать по куда надо резать этот файл (до закрытия нужного тега). Иначе получим или больше (еще куда ни шло) либо меньше (половина инфы к примеру останется где-то там) и придется еще раз тянуть но на этот раз увеличивать размер.
Если уж обсуждать, то стоит обращать внимание не только на функционал (а если точнее возможности), но и на удобство использования. Минимализм - это хорошо, но иногда этот минимализм может вылезти еще большими тратами.

P.S. И да тему смотрел, и свое мнение высказал, как пользователя, так и программиста.

P.P.S. Так же хочу напомнить о такой мелочи, как gzip сжатие. Я вот не знаю, как при этом будет вести себя "режется хтмл"

P.P.P.S. О картинках в base64 тоже наверное слышали?
« Последнее редактирование: 17 Май 2016, 12:21:19 от EvangelionDeath »
Fujitsu UH552: Intel Core i3-3217U, 16GB DDR3 1600MHz, Intel HD4000, Intel 535 120GB/Ubuntu 16.04 Mate
HP 625: AMD Athlon P320, 4GB DDR3 1333MHz, AMD HD4250, Seagate Momentus/Ubuntu 14.04 Mate

 

Страница сгенерирована за 0.437 секунд. Запросов: 24.