Мне нужно запустить много пауков (~ 20-50) параллельно на одном сервере. Некоторые из моих пауков продолжаются более двух дней, и иногда мне нужно запустить новый, прежде чем все процессы будут завершены. Как я понимаю, такая возможность обеспечивает scrapyd (отдельный процесс демона) и CrawlerProcess (класс scrapy). Или, может быть, сельдерей здесь более подходит? (Я бы хотел использовать python3) Каковы особые аспекты каждого подхода и какой из них лучше для моего проекта?scrapyd или CrawlerProcess для parralel parsing
0
A
ответ
1
Как упоминается в https://github.com/scrapy/scrapyd/issues/143, scrpyd будет поддерживать python3. Независимо от этого, сельдерей - хороший выбор.
Я бы рекомендовал использовать [Dash] Scrapinghub (http://doc.scrapinghub.com/dash.html), было бы неплохо дать ему попробовать. – eLRuLL
Хорошее решение, но я должен использовать свой собственный сервер и БД. – Rainmaker