2009-11-11 6 views
0

Кто-нибудь знает, есть ли стандарты/api для обхода новостей из большинства крупнейших источников новостей.Crawling news articles

Я использую rss для их индексации, но я бы хотел классифицировать их с большим количеством данных, чем только их названия.

ответ

0

Если я правильно прочитал, вы имеете в виду Atom?

Там также RSS specifications

+1

а также большинство источников новостей не добавляют основное содержание своих статей в фидах нет? – Roch

+0

К сожалению, нет ... Вам нужно написать свой собственный гусеничный/шпион, чтобы получить все. – Trick

1

Если вы ищете API для обхода новостей из нескольких источников , вы можете рассмотреть Newsriver. Это новейший API для извлечения структурированных онлайн-новостей.

Newsriver охватывает большое количество онлайн-источников новостей, и это полностью настраивается.

Основное преимущество использования ползание в качестве сервиса API является то, что вам больше не придется управлять следующими аспектами:

  1. Найти и сохранить RSS Новости издателей каналы и веб-сайты URL-адреса.
  2. Корректировка по URL, вращение и канонизация.
  3. Запросы дросселирования (во избежание злоупотреблений).
  4. Обход сканирования и динамического сканирования (Ajax).
  5. Содержание экстракция, первичный текст, встроенные объекты, такие как изображения, видео, карты, твиты и т.д.
  6. извлечения метаданных (язык, местоположение, ключевые слова и т.д., например) обнаружения статей
  7. Дублирование новостей.
+0

Почему это было приостановлено? – altabq