Форум русскоязычного сообщества Ubuntu


Считаете, что Ubuntu недостаточно дружелюбна к новичкам?
Помогите создать новое Руководство для новичков!

Автор Тема: Робот, который сам лазит по инету.  (Прочитано 6421 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн nauman

  • Автор темы
  • Новичок
  • *
  • Сообщений: 39
    • Просмотр профиля
Робот, который сам лазит по инету.
« : 24 Августа 2009, 19:14:30 »
Подскажите, нужно, чтобы скрипт заходил на соответствующую страницу, искал там нужную ссылку, если она присутствует, то заходил по ней. В  Linuxе я не силен, что для этого нужно. Дайте хотя бы направление, куда смотреть.

Оффлайн Protopopulus

  • Старожил
  • *
  • Сообщений: 1695
  • А чего вы так смотрите?..
    • Просмотр профиля
Re: Робот, который сам лазит по инету.
« Ответ #1 : 24 Августа 2009, 19:17:44 »
Если скрипты, то python, perl, shell...
Если ты владеешь знаниями, то и знания владеют тобой. (с) Protopopulus

Оффлайн nauman

  • Автор темы
  • Новичок
  • *
  • Сообщений: 39
    • Просмотр профиля
Re: Робот, который сам лазит по инету.
« Ответ #2 : 24 Августа 2009, 19:31:09 »
Pazen
Цитировать
хм. то есть вы хотите, чтобы бот кликал по какой-то рекламке и вам капали денежки за клики? занятно

Нет, никакой коммерческой наживы я не преследую, все гораздо хуже.... , но это не суть важно в принципе. Меня интересует механизм. Как подсказвает Protopopulus , можно при помощи shell, я так понимаю /bin/bash? Мне так думается нужны еще какие нибудь консольные веб броузеры, чтоли?

Хотя, идея с капанием денежек, тоже не плохая. :-)
« Последнее редактирование: 24 Августа 2009, 19:35:57 от nauman »

Оффлайн Frank

  • Старожил
  • *
  • Сообщений: 1799
  • Профессиональный любитель
    • Просмотр профиля
    • Народный форум Николаева
Re: Робот, который сам лазит по инету.
« Ответ #3 : 24 Августа 2009, 19:45:43 »
man lynx; man grep; man wget

Оффлайн SauronTheDark

  • Активист
  • *
  • Сообщений: 674
    • Просмотр профиля
Re: Робот, который сам лазит по инету.
« Ответ #4 : 25 Августа 2009, 13:11:34 »
man  php, python, perl (по предпочтению) и man curl

Оффлайн alexander.pronin

  • Старожил
  • *
  • Сообщений: 2539
    • Просмотр профиля
Re: Робот, который сам лазит по инету.
« Ответ #5 : 25 Августа 2009, 13:36:34 »
хм. то есть вы хотите, чтобы бот кликал по какой-то рекламке и вам капали денежки за клики? занятно :)
Кто платит за клики и почему платит. Я ничего не понимаю. Так каждый назапускает бесконечных скриптов и что кто-то будет платить ?
,htlznbnf

Оффлайн alexander.pronin

  • Старожил
  • *
  • Сообщений: 2539
    • Просмотр профиля
Re: Робот, который сам лазит по инету.
« Ответ #6 : 25 Августа 2009, 15:47:51 »
Без русских букв попробуйте. Все будет в шоколаде.

Оффлайн Frank

  • Старожил
  • *
  • Сообщений: 1799
  • Профессиональный любитель
    • Просмотр профиля
    • Народный форум Николаева
Re: Робот, который сам лазит по инету.
« Ответ #7 : 25 Августа 2009, 19:46:06 »
В кавычки адрес бери, блин! :) Символ & воспринимается как команда ухода в бэкграунд.

Оффлайн alexander.pronin

  • Старожил
  • *
  • Сообщений: 2539
    • Просмотр профиля
Re: Робот, который сам лазит по инету.
« Ответ #8 : 26 Августа 2009, 08:45:13 »
Теперь Вы знаете как любой сайт заморозить. Можно еще запинговать.
Не надо только наш сайт, лучше M$.
Через некоторое время Вашего робота внесут в черный список, придется изменять внешность периодически. :coolsmiley:

Оффлайн adept_

  • Участник
  • *
  • Сообщений: 158
    • Просмотр профиля
Re: Робот, который сам лазит по инету.
« Ответ #9 : 26 Августа 2009, 09:09:21 »
Цитировать
Теперь Вы знаете как любой сайт заморозить. Можно еще запинговать.
На любом сайте есть защита от простейшего DOS

Оффлайн Sova777

  • Участник
  • *
  • Сообщений: 208
    • Просмотр профиля
    • Несколько слов о NetBeans C/C++ Pack'е
Re: Робот, который сам лазит по инету.
« Ответ #10 : 26 Августа 2009, 22:07:44 »
Одного хоста маловато будет скорее всего
Пользователь OpenSolaris 2008.11, Ubuntu 8.10, Windows XP. Mac OS X не нравится, стараюсь не использовать.

Оффлайн BorisPlus

  • Активист
  • *
  • Сообщений: 253
  • Болты вперед,болты назад,такой работе я очень рад!
    • Просмотр профиля
Re: Робот, который сам лазит по инету.
« Ответ #11 : 26 Августа 2009, 22:12:06 »
Недавно меня попросили написать что-то типа простенького клиента, который агрегирует некоторые функции в себе с нескольких сайтов одновременно. Раскрывать всего замысла не буду, но скажу так - каждый сайт позволяет обрабатывать некоторую статистику по входным данным, но с определенными особенностями по каждому. У сайтов свои движки и о необходимости разработки апи знать не знали, когда их писали.

Так вот - единственный продукт который меня удовлетворил - это cUrl.

1-е - я изучил, как конкретно выглядят POST и GET запросы - попробуйте  плагины мозиллы LiveHTTPHeaders
2-е - можно было б сразу приступить к использованию полученных шаблонов запросов в новой веб -оболочке, но решил попробовать консоль и много узнал еще интересного об этих сайтах
       Например, выяснилось, что для получения ответа на запрос можно несколько GET пропустить и не грузить лишний раз системы
3-е - просто взял поэкспериментировал с libCURL под PHP
4-е - написал свой класс-сомпонент в нотации используемого фреемворка над библиотекой libCURL

А в итоге 5-е - получилось офигенное средство для курсовой работы, программа сама авторизуется, сама отправляет накопившуюся инфу из базы данных, получает несколько ответов - а вам остается только выдвигать дальнейшие гипотезы для исследования

Единственное, что в этом случае мне не оч понравилось - отсутствие многопоточности (попрошу не путать с multi curl), но это уже беда PHP.

Бросайте вы эти "клики"...Давайте лучше Контакт DDоSить) Шутка)

Пользователь решил продолжить мысль 26 Августа 2009, 20:13:44:
На любом сайте есть защита от простейшего DOS
И Windows)
« Последнее редактирование: 26 Августа 2009, 22:14:12 от BorisPlus »
Спасибо за помощь, товарищи!

Оффлайн BorisPlus

  • Активист
  • *
  • Сообщений: 253
  • Болты вперед,болты назад,такой работе я очень рад!
    • Просмотр профиля
Re: Робот, который сам лазит по инету.
« Ответ #12 : 26 Августа 2009, 22:30:45 »
может удастся понять откуда берутся эти ЛЮБЫЕ СИМВОЛЫ - это самое простое - ну например предзапрос какой или куки
Спасибо за помощь, товарищи!

Оффлайн Frank

  • Старожил
  • *
  • Сообщений: 1799
  • Профессиональный любитель
    • Просмотр профиля
    • Народный форум Николаева
Re: Робот, который сам лазит по инету.
« Ответ #13 : 26 Августа 2009, 23:07:54 »
Конечно нереально, ведь wget не может перепробовать скачать у сервера стотыщмильёнов файлов, попадающих под маску со звёздочкой :) Сервера обычно не отдают оглавление каталога, да и часто оглавления не может и быть, из-за rewrite'в. Так что тебе надо сначала получить ссылку. Например, тем же lynx, с помощью grep. Я же тебе маны на них уже ссылал ;)
« Последнее редактирование: 26 Августа 2009, 23:09:55 от Frank »

Оффлайн nauman

  • Автор темы
  • Новичок
  • *
  • Сообщений: 39
    • Просмотр профиля
Re: Робот, который сам лазит по инету.
« Ответ #14 : 29 Августа 2009, 21:44:19 »
Навоял, может кому понадобится...
#!/bin/bash

ir=1
while [ $ir==1 ]; do
        let R=$RANDOM%180;
        elinks "http адрес сайта" | grep -w  "маска поиска" | sed 's_^  [0-9][0-9].__' | cat > /tmp/1
        wget -v -S --random-wait --no-cache --no-cookies --header="User-Agent: Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)"  -i /tmp/1 -O /tmp/2
        echo 'waiting...' $R' sec'
        sleep $R
done;
Скажите, можно ли это положить на удаленный бесплатный хостинг, какой нибудь и там его запускать? Что должен поддерживать хостинг, чтобы скрипт там работал?
« Последнее редактирование: 29 Августа 2009, 21:49:55 от nauman »

 

Страница сгенерирована за 0.038 секунд. Запросов: 25.