Я собираюсь написать многопоточный искатель, который планируется запустить примерно на 10M страницах, чтобы ускорить работу, мне нужно собрать около 10 ~ разных страниц одновременно.многопоточный искатель с различным прокси для каждого потока, правильный путь?
Каждый из потоков искателя будет использовать другой прокси-сервер и вывести результаты в очередь, с другой стороны у меня будет еще несколько работников, которые будут получать результаты из очереди, анализировать и вставлять их в DB.
Это правильный подход? у меня будут проблемы с сохранением слишком большого количества результатов в очереди? Должен ли я беспокоиться о замках? (с использованием модуля очереди). Какая библиотека HTTP будет самой лучшей для моих нужд? (Httplib2/urllib2).
При создании каждого потока следует передавать новые экземпляры объекта запроса в каждый поток или перемещать объект запроса и использовать его функцию «getPage» в потоке?
Спасибо.