Форум русскоязычного сообщества Ubuntu


Автор Тема: Помогите разобраться с wget  (Прочитано 1936 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн megafanat

  • Автор темы
  • Новичок
  • *
  • Сообщений: 38
    • Просмотр профиля
Помогите разобраться с wget
« : 13 Апрель 2012, 07:10:33 »
Хочу скачать книгу GPU gems с сайта NVidia, чтобы потом не спеша почитать её в электричке.
Условия задачи такие:

Подскажите, как сформировать командную строку, чтобы скачать эту книгу и по возможность скачать как можно меньше посторонних файлов.

Я делал так:
wget --recursive --html-extension --span-hosts --level 1 --convert-links --domains=developer.nvidia.com\
--exclude-domains=forum-archive.developer.nvidia.com,forums.developer.nvidia.com,\
nvdeveloper.nvidia.com,news.developer.nvidia.com,origin-developer.nvidia.com\
http://developer.nvidia.com/content/gpu-gems-part-i-natural-effects
--recursive - для рекурсивного скачивания
--html-extension - чтобы html-файлы сохранялись с расширением html
--level 1 - глубина рекурсии. Для экспериментов с опциями я ставил 1. Для собственно скачивания нужно поставить 2, этого должно хватить чтобы загрузить все главы и картинки к ним.
--convert-links - чтобы преобразовать после скачивания ссылки на локальные
--domains=developer.nvidia.com - чтобы скачивать файлы только находящиеся в пределах этого домена и его поддоменов. Без этой опции скачивание ведется отовсюду.
--span-hosts - если не добавить эту опцию, то скачивание будет вестись только строго с домена developer.nvidia.com, а нам нужен ещё и поддомен. При добавлении этой опции скачивание ведётся и с поддоменов в том числе.
--exclude-domains=... - нам нужен только один поддомен, остальные не нужны.

В итоге при таком наборе опций и уровне рекурсии 2 скачивается ну очень много файлов и скачиваются они очень долго.

Попытка ограничить набор скачиваемых файлов опцией --accept jpg,html приводит к странным результатам: программа по прежнему скачивает файлы robots.txt, которые вроде не проходят этот фильтр и программа перестает скачивать большинство html-файлов, ограничивается лишь некоторыми.

Попытка ограничить набор папок опцией --include /content,/node,/GPUGems/elementLinks приводит к тому, что картинки перестают скачиваться, видимо потому, что они расположены в другом домене.

Вот такая проблема. Подскажите, вообще реально это сделать с помощью wget, или тут спасёт только старый добрый Save as в браузере?

Оффлайн ksaver

  • Активист
  • *
  • Сообщений: 492
  • Это не я...
    • Просмотр профиля
Re: Помогите разобраться с wget
« Ответ #1 : 13 Апрель 2012, 17:49:18 »
А что, это единственный источник? Вот отсюда не устроит? http://depositfiles.com/files/03g7rslcz ? И на Амазоне оно продается...
Samsung NP305V5A-S06RU A6-3410MX APU AMD HD6470M/HD6520G RAM 6GB Ubuntu bionic 18.04 4.15.0-15(боевая)|budgie 18.04 4.15.0-15 (тестовая)

Оффлайн megafanat

  • Автор темы
  • Новичок
  • *
  • Сообщений: 38
    • Просмотр профиля
Re: Помогите разобраться с wget
« Ответ #2 : 16 Апрель 2012, 11:53:43 »
Ну это вроде как абсолютно легально и бесплатно. Ну а если понравиться, то можно будет и пиратскую версию скачать или купить.

В принципе на текущий момент уже сильно не надо оттуда скачивать, но разобраться с wget всё таки хотелось бы.

В частности, почему при добавлении опции --accept jpg,html файлы robots.txt всё равно скачиваются. И почему при этом перестают скачиваться большинство html-файлов?

И можно ли вообще скачать небольшую часть сайта, расположенную на нескольких доменах, так, чтобы её можно было смотреть локально, не скачивая при этом тысяч файлов?

Оффлайн start733

  • Участник
  • *
  • Сообщений: 247
    • Просмотр профиля
Re: Помогите разобраться с wget
« Ответ #3 : 16 Апрель 2012, 18:45:33 »
How can I make Wget ignore the robots.txt file/no-follow attribute?

http://wget.addictivecode.org/FrequentlyAskedQuestions

поиск по фразе wget no robots.txt
« Последнее редактирование: 16 Апрель 2012, 18:53:09 от start733 »

 

Страница сгенерирована за 0.077 секунд. Запросов: 25.