2009-07-14 3 views
0

Я работаю над бесплатным веб-приложением, которое анализирует главные новости в течение дня и предоставляет статистику. Большинство новостных веб-сайтов предлагают RSS-каналы, которые отлично работают, чтобы узнать, какие истории нужно получить. Тем не менее, проблемы возникают при попытке получить полную новость с самого новостного сайта. На данный момент у меня есть отдельные классы NewsSource для каждого источника (CNN, NY Times и т. Д.), Которые читают соответствующие RSS-каналы, следуют за каждой ссылкой и вырезают тело. Это кажется утомительным и очень неуправляемым, когда новостной сайт решает изменить структуру HTML своих статей.Как я могу использовать данные различных источников новостей?

Есть ли услуга (желательно бесплатная), которая уже объединяет несколько источников новостей с полным содержимым статьи (а не только резюме)? Если нет, есть ли какие-либо предложения по обработке нескольких источников с различными структурами HTML, которые могут измениться без уведомления?

ответ

0

Я знаю, что это не отличный ответ, но я забыл имя запуска здесь, в Колорадо, которое может принимать неструктурированные/полуструктурированные данные и анализировать его в структурированном формате. Я думаю, что если вы будете искать блог coloradostartups для «данных», вы можете его найти.

0

Использование readability. Найдите порт читаемости для используемого вами языка.

 Смежные вопросы

  • Нет связанных вопросов^_^