Форум русскоязычного сообщества Ubuntu


Автор Тема: Парсер mamba.ru  (Прочитано 2576 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн A.i.D.

  • Автор темы
  • Новичок
  • *
  • Сообщений: 24
    • Просмотр профиля
Парсер mamba.ru
« : 26 Январь 2014, 18:38:19 »
Всем привет! Хочу немного оптимизировать работу с сайтом mamba.ru.. Поиск кандидаток по различным параметрам, отображение в удобном мне виде, отслеживание их частоты пребывания на сайте, пока этого достаточно. Но столкнулся с рядом граблей.
1. пытался указать ссылку поиска, она оказывается динамической, изменяются некоторые параметры при переходе, что исключает автоматизированный поиск по сайту.. (http://www.mamba.ru/ru/search.phtml?t=a&sz=b&ni=1&wp=1&ia=M&lf=N&af=22&at=35&s_c=3159_4270_4274_0)
2. При скачивании сайта, думал в дальнейшем просто пропарсить анкеты.
wget -k -r -p -nc http://www.mamba.ru/ru/search.phtml?t=a&sz=b&ni=1&wp=1&ia=M&lf=N&af=22&at=35&s_c=3159_4270_4274_0не скачиваются картинки.. так как посути находятся на другом ресурсе (http://193.0.171.24/52/14/14/740414125/1139302756_medium.jpg?updated=20130711010551).
3. на винде в делфях я писал бота, который регистрировался, бродил по некому форуму и.. по сути просто бродил, но на ubuntu я не представляю такой реализации.
4. на мамбе меня забанили зачем-то, я попросил администрацию сайта меня разбанить, как узнать, дошло ли хотя бы десять из десяти тысяч POST запросов через curl, до администрации, может просто по ip профильтровали..
Может кто-нибудь сталкивался с подобным или есть идеи по решению сложившейся ситуации?

Пользователь решил продолжить мысль 26 Январь 2014, 19:58:35:
В принципе у меня есть предположение, что надо скачивать с запросом на фильтр и разрешением куков, далее парсить все сохраненные страницы на предмет интересуемого материала.. но может кто-то писал парсеры к сайтам и сможет объяснить как это делается?

Пользователь решил продолжить мысль 26 Январь 2014, 21:02:40:
Я попробовал команду вида
wget http://www.mamba.ru/ru/mb{1..9999999999999}Но комп повисает наглухо после нее.. Что в ней не так?
« Последнее редактирование: 26 Январь 2014, 21:02:40 от A.i.D. »
Ubuntu 12.04, Centos 6.2, SAMS, SQUID, VuurMuur, ISPConfig.

Оффлайн peregrine

  • FSM
  • СуперМодератор
  • Старожил
  • *
  • Сообщений: 7188
  • Gentoo x64 Ubuntu 16.04.1 x64
    • Просмотр профиля
Re: Парсер mamba.ru
« Ответ #1 : 27 Январь 2014, 02:21:34 »
A.i.D., есть идея, что бот нарушает правила сайта, который оббирается этим ботом, следовательно нарушает правила форума.
ЗЫ
если писал на дельфях, то пиши не FreePascal (Lazarus, если нужен GUI клепальщик или простой редактор, например Geany+FPC), кто мешает? Они очень похожи.

Оффлайн A.i.D.

  • Автор темы
  • Новичок
  • *
  • Сообщений: 24
    • Просмотр профиля
Re: Парсер mamba.ru
« Ответ #2 : 27 Январь 2014, 09:42:14 »
A.i.D., есть идея, что бот нарушает правила сайта, который оббирается этим ботом, следовательно нарушает правила форума.
Эмм.. поэтому происходит глухое зависание после команды wget http://www.mamba.ru/ru/mb{1..9999999999999} ? Нет-нет, бота я запускал не под аккаунтом, да и после бана. Тут помоему я что-то в команде накосячил, либо она не умеет работать с LongInt'ом.
если писал на дельфях, то пиши не FreePascal (Lazarus, если нужен GUI клепальщик или простой редактор, например Geany+FPC), кто мешает? Они очень похожи.
Писать можно и на PHP (так было бы даже удобнее, запуск скрипта на других хостингах), мне бы пример реализации. Пока курю в сторону curl и wget в цикле, но это не выход.
Ubuntu 12.04, Centos 6.2, SAMS, SQUID, VuurMuur, ISPConfig.

 

Страница сгенерирована за 0.065 секунд. Запросов: 25.