2010-04-20 3 views
-1

Мы используем веб-скребок и настроили его на функцию сна, которая имеет случайную функцию (так что это не одно и то же время между каждой царапиной), но мы по-прежнему заблокированы от Yahoo после 20- 30 запросов.Yahoo Web Scrapes: Каковы пределы?

Кто-нибудь знает, есть ли предел (т. Е. 20 запросов в минуту, 200 в час). Прямо сейчас наше среднее значение между каждым запросом составляет около 3-6 секунд. Спасибо за любую помощь.

+0

Итак, чтобы быть понятным, вы спрашиваете нас, как нарушать TOS Yahoo и не попасться? – Aaronaught

+0

да ... это именно то, что я прошу. – bvandrunen

+0

Если YahooPipe используется как часть скребка, у этого есть предел всего 200 запросов на каждый IP каждые 10 минут {OR 200 запросов на отдельный канал за десять минут} – Skizz

ответ

0

Таким образом, ответ составляет 5000 запросов. Взятые из

http://forums.digitalpoint.com/showthread.php?t=736784

HTTP: // разработчик. Yahoo. com/search/rate.html

+0

Это ограничение скорости для их веб-служб. Скремблирование их результатов не допускается, период; они не собираются документировать лимит для этого, но будьте уверены, что это намного меньше, чем 5000 раз. – Aaronaught

0

1 запрос каждые 3-6 секунд довольно низок, поэтому, возможно, есть еще одна проблема с вашим сканером.

Несколько идей:

  • установить User-Agent на что-то не-подозрительной
  • установить Referer заголовок к тому же домену
  • попробуйте запустить искателю другой IP в случае, если ваш текущий IP занесен в черный список
  • попробовать поддерживать печенье

Это все будет проще, если вы используете более высокий уровень Весов ry нравится Mechanize.

+0

Спасибо за ваши предложения ... Я знаю, что в В прошлом мы использовали программное обеспечение, которое рандомизировало наши IP-адреса ... и это, казалось, сработало. – bvandrunen

+0

может стоить проверить IP-адреса, чтобы попытаться изолировать проблему. Также попробуйте замедлить скорость запроса, чтобы узнать, достало ли вам более 30 запросов. Если вы используете несколько IP-адресов, вы можете позволить себе замедлить скорость запроса, сканируя параллельно. – hoju