Всем привет! Хочу немного оптимизировать работу с сайтом mamba.ru.. Поиск кандидаток по различным параметрам, отображение в удобном мне виде, отслеживание их частоты пребывания на сайте, пока этого достаточно. Но столкнулся с рядом граблей.
1. пытался указать ссылку поиска, она оказывается динамической, изменяются некоторые параметры при переходе, что исключает автоматизированный поиск по сайту.. (
http://www.mamba.ru/ru/search.phtml?t=a&sz=b&ni=1&wp=1&ia=M&lf=N&af=22&at=35&s_c=3159_4270_4274_0)
2. При скачивании сайта, думал в дальнейшем просто пропарсить анкеты.
wget -k -r -p -nc http://www.mamba.ru/ru/search.phtml?t=a&sz=b&ni=1&wp=1&ia=M&lf=N&af=22&at=35&s_c=3159_4270_4274_0
не скачиваются картинки.. так как посути находятся на другом ресурсе (
http://193.0.171.24/52/14/14/740414125/1139302756_medium.jpg?updated=20130711010551).
3. на винде в делфях я писал бота, который регистрировался, бродил по некому форуму и.. по сути просто бродил, но на ubuntu я не представляю такой реализации.
4. на мамбе меня забанили зачем-то, я попросил администрацию сайта меня разбанить, как узнать, дошло ли хотя бы десять из десяти тысяч POST запросов через curl, до администрации, может просто по ip профильтровали..
Может кто-нибудь сталкивался с подобным или есть идеи по решению сложившейся ситуации?
Пользователь решил продолжить мысль 26 Января 2014, 19:58:35:
В принципе у меня есть предположение, что надо скачивать с запросом на фильтр и разрешением куков, далее парсить все сохраненные страницы на предмет интересуемого материала.. но может кто-то писал парсеры к сайтам и сможет объяснить как это делается?
Пользователь решил продолжить мысль 26 Января 2014, 21:02:40:
Я попробовал команду вида
wget http://www.mamba.ru/ru/mb{1..9999999999999}
Но комп повисает наглухо после нее.. Что в ней не так?