2015-09-01 2 views
1

Я использую portia для сканирования статьи веб-сайта, теперь я задаюсь вопросом, как я могу получить наименьшую статью каждый день, когда запускаю паук portia?Как получить наименьшие статьи использования сайта portia

У меня есть идея, что использовать datetime из статьи и сравнить с ней теперь datetime. Но есть ли лучшее?

ответ

2

В зависимости от структуры сайта, но если каждая статья имеет другой URL-адрес, вы можете фильтровать URL-адреса, которые уже были посещены в предыдущих обходах, с использованием промежуточного программного обеспечения-помощника deltafetch.

Чтобы включить установку scrapylib и добавить к вашему settings.py:

SPIDER_MIDDLEWARES = { 
    'scrapylib.deltafetch.DeltaFetch': 100, 
} 
DELTAFETCH_ENABLED = True