Хочу скачать книгу GPU gems с сайта NVidia, чтобы потом не спеша почитать её в электричке.
Условия задачи такие:
Подскажите, как сформировать командную строку, чтобы скачать эту книгу и по возможность скачать как можно меньше посторонних файлов.
Я делал так:
wget --recursive --html-extension --span-hosts --level 1 --convert-links --domains=developer.nvidia.com\
--exclude-domains=forum-archive.developer.nvidia.com,forums.developer.nvidia.com,\
nvdeveloper.nvidia.com,news.developer.nvidia.com,origin-developer.nvidia.com\
http://developer.nvidia.com/content/gpu-gems-part-i-natural-effects
--recursive - для рекурсивного скачивания
--html-extension - чтобы html-файлы сохранялись с расширением html
--level 1 - глубина рекурсии. Для экспериментов с опциями я ставил 1. Для собственно скачивания нужно поставить 2, этого должно хватить чтобы загрузить все главы и картинки к ним.
--convert-links - чтобы преобразовать после скачивания ссылки на локальные
--domains=developer.nvidia.com - чтобы скачивать файлы только находящиеся в пределах этого домена и его поддоменов. Без этой опции скачивание ведется отовсюду.
--span-hosts - если не добавить эту опцию, то скачивание будет вестись только строго с домена developer.nvidia.com, а нам нужен ещё и поддомен. При добавлении этой опции скачивание ведётся и с поддоменов в том числе.
--exclude-domains=... - нам нужен только один поддомен, остальные не нужны.
В итоге при таком наборе опций и уровне рекурсии 2 скачивается ну очень много файлов и скачиваются они очень долго.
Попытка ограничить набор скачиваемых файлов опцией --accept jpg,html приводит к странным результатам: программа по прежнему скачивает файлы robots.txt, которые вроде не проходят этот фильтр и программа перестает скачивать большинство html-файлов, ограничивается лишь некоторыми.
Попытка ограничить набор папок опцией --include /content,/node,/GPUGems/elementLinks приводит к тому, что картинки перестают скачиваться, видимо потому, что они расположены в другом домене.
Вот такая проблема. Подскажите, вообще реально это сделать с помощью wget, или тут спасёт только старый добрый Save as в браузере?