Использование feedparser или другой библиотеки Python для загрузки и анализа RSS-каналов; как я могу надежно обнаруживать предметы new
и modified
?Как обнаружить измененные и новые элементы в ленте RSS?
До сих пор я видел новые элементы в фидах с датами публикации раньше, чем последний элемент. Также я видел, как читатели каналов отображали один и тот же элемент, опубликованный с немного другим контентом, как отдельные элементы. Я не внедряю приложение для чтения фидов, я просто хочу разумную стратегию для архивирования данных фида.
Хэширование содержимого может быть осуществимо в моем случае. Достаточно ли item.title & item.content? – muhuk
Возможно. Некоторые каналы, которые я использую, меняют название на идентичные элементы без изменения содержимого; в таких случаях мне может быть интересно только хеширование по содержанию. Это зависит от того, что вы считаете «фундаментальным» для каждого элемента. –
В любом случае, решение было бы отслеживать все «старые» данные на принимающей стороне, верно? Либо я отслеживаю обработанные идентификаторы, либо значения хэша для записей, которые я уже обработал. Невозможно определить новую запись, не проверяя каждую запись в RSS-канале или доверяя меткам времени фида? –