Автор Тема: Помогите разобраться с wget (Прочитано 2550 раз)

megafanat · « : 13 Апреля 2012, 07:10:33 »

Хочу скачать книгу GPU gems с сайта NVidia, чтобы потом не спеша почитать её в электричке.
Условия задачи такие:

Корневая страница книги: http://developer.nvidia.com/content/gpu-gems-part-i-natural-effects
На корневой странице есть ссылки на все главы книги.
Главы расположены либо в папке http://developer.nvidia.com/node либо в папке http://developer.nvidia.com/content.
HTML-файлы глав браузер почему-то показывает без расширений.
Картинки в главах расположены в папке http://http.developer.nvidia.com/GPUGems/elementLinks.
Все картинки имеют расширение jpg.

Подскажите, как сформировать командную строку, чтобы скачать эту книгу и по возможность скачать как можно меньше посторонних файлов.

Я делал так:

Код: [Выделить]

wget --recursive --html-extension --span-hosts --level 1 --convert-links --domains=developer.nvidia.com\
--exclude-domains=forum-archive.developer.nvidia.com,forums.developer.nvidia.com,\
nvdeveloper.nvidia.com,news.developer.nvidia.com,origin-developer.nvidia.com\
http://developer.nvidia.com/content/gpu-gems-part-i-natural-effects

--recursive - для рекурсивного скачивания
--html-extension - чтобы html-файлы сохранялись с расширением html
--level 1 - глубина рекурсии. Для экспериментов с опциями я ставил 1. Для собственно скачивания нужно поставить 2, этого должно хватить чтобы загрузить все главы и картинки к ним.
--convert-links - чтобы преобразовать после скачивания ссылки на локальные
--domains=developer.nvidia.com - чтобы скачивать файлы только находящиеся в пределах этого домена и его поддоменов. Без этой опции скачивание ведется отовсюду.
--span-hosts - если не добавить эту опцию, то скачивание будет вестись только строго с домена developer.nvidia.com, а нам нужен ещё и поддомен. При добавлении этой опции скачивание ведётся и с поддоменов в том числе.
--exclude-domains=... - нам нужен только один поддомен, остальные не нужны.

В итоге при таком наборе опций и уровне рекурсии 2 скачивается ну очень много файлов и скачиваются они очень долго.

Попытка ограничить набор скачиваемых файлов опцией --accept jpg,html приводит к странным результатам: программа по прежнему скачивает файлы robots.txt, которые вроде не проходят этот фильтр и программа перестает скачивать большинство html-файлов, ограничивается лишь некоторыми.

Попытка ограничить набор папок опцией --include /content,/node,/GPUGems/elementLinks приводит к тому, что картинки перестают скачиваться, видимо потому, что они расположены в другом домене.

Вот такая проблема. Подскажите, вообще реально это сделать с помощью wget, или тут спасёт только старый добрый Save as в браузере?

ksaver · « **Ответ #1 :** 13 Апреля 2012, 17:49:18 »

А что, это единственный источник? Вот отсюда не устроит? http://depositfiles.com/files/03g7rslcz ? И на Амазоне оно продается...

megafanat · « **Ответ #2 :** 16 Апреля 2012, 11:53:43 »

Ну это вроде как абсолютно легально и бесплатно. Ну а если понравиться, то можно будет и пиратскую версию скачать или купить.

В принципе на текущий момент уже сильно не надо оттуда скачивать, но разобраться с wget всё таки хотелось бы.

В частности, почему при добавлении опции --accept jpg,html файлы robots.txt всё равно скачиваются. И почему при этом перестают скачиваться большинство html-файлов?

И можно ли вообще скачать небольшую часть сайта, расположенную на нескольких доменах, так, чтобы её можно было смотреть локально, не скачивая при этом тысяч файлов?

start733 · « **Ответ #3 :** 16 Апреля 2012, 18:45:33 »

How can I make Wget ignore the robots.txt file/no-follow attribute?

http://wget.addictivecode.org/FrequentlyAskedQuestions

поиск по фразе wget no robots.txt

Форум русскоязычного сообщества Ubuntu

Автор Тема: Помогите разобраться с wget (Прочитано 2550 раз)

megafanat

Помогите разобраться с wget

ksaver

Re: Помогите разобраться с wget

megafanat

Re: Помогите разобраться с wget

start733

Re: Помогите разобраться с wget