Я работаю над бесплатным веб-приложением, которое анализирует главные новости в течение дня и предоставляет статистику. Большинство новостных веб-сайтов предлагают RSS-каналы, которые отлично работают, чтобы узнать, какие истории нужно получить. Тем не менее, проблемы возникают при попытке получить полную новость с самого новостного сайта. На данный момент у меня есть отдельные классы NewsSource для каждого источника (CNN, NY Times и т. Д.), Которые читают соответствующие RSS-каналы, следуют за каждой ссылкой и вырезают тело. Это кажется утомительным и очень неуправляемым, когда новостной сайт решает изменить структуру HTML своих статей.Как я могу использовать данные различных источников новостей?
Есть ли услуга (желательно бесплатная), которая уже объединяет несколько источников новостей с полным содержимым статьи (а не только резюме)? Если нет, есть ли какие-либо предложения по обработке нескольких источников с различными структурами HTML, которые могут измениться без уведомления?