многопоточный искатель с различным прокси для каждого потока, правильный путь?

Я собираюсь написать многопоточный искатель, который планируется запустить примерно на 10M страницах, чтобы ускорить работу, мне нужно собрать около 10 ~ разных страниц одновременно.многопоточный искатель с различным прокси для каждого потока, правильный путь?

Каждый из потоков искателя будет использовать другой прокси-сервер и вывести результаты в очередь, с другой стороны у меня будет еще несколько работников, которые будут получать результаты из очереди, анализировать и вставлять их в DB.

Это правильный подход? у меня будут проблемы с сохранением слишком большого количества результатов в очереди? Должен ли я беспокоиться о замках? (с использованием модуля очереди). Какая библиотека HTTP будет самой лучшей для моих нужд? (Httplib2/urllib2).

При создании каждого потока следует передавать новые экземпляры объекта запроса в каждый поток или перемещать объект запроса и использовать его функцию «getPage» в потоке?

Спасибо.

источник

2012-06-17 YSY

Попробуйте requests библиотеку (documantation part for proxies)

источник

2012-06-17 13:25:58 astynax

Scrapy «s путь.

На этой странице описывается, как настроить промежуточное программное обеспечение прокси-сервера для использования нескольких прокси-серверов: http://mahmoud.abdel-fattah.net/2012/04/16/using-scrapy-with-different-many-proxies/

источник

2012-06-17 14:46:11 Acorn

многопоточный искатель с различным прокси для каждого потока, правильный путь?

ответ

Смежные вопросы