2009-11-13 3 views
1

Я работаю над приложением, в котором я хотел бы получить список новостей из некоторых источников (например, BBC) и проанализируйте их для ключевых слов, которые я могу использовать против своих собственных данных тега. Очевидно, есть много веб-сервисов и API-интерфейсов, но что бы вы предложили в качестве хороших маршрутов.Что такое хорошие методы для извлечения списка ключевых слов для главных новостей за день

Одна вещь, которую я рассматривал, - это периодическая загрузка RSS-канала BBC News и разбор содержимого с использованием экстрактора термина Yahoo. Это кажется хорошим решением для меня, но термин экстрактор предназначен только для некоммерческого использования, и мое приложение является коммерческим.

YQL выглядит многообещающим, но я не уверен, насколько легко будет уплотнять данные до ключевых слов.

Все предложения приветствуются как для источника новостей, так и для извлечения ключевых слов/тегов, а также для коммерческих и некоммерческих целей.

Update:

здание по предложению ответа, вот YQL для захвата ключевых слов из ведущих британских новостных магазинов на BBC:

select content 
from search.termextract 
where context in (
    select title 
    from rss 
    where url='http://newsrss.bbc.co.uk/rss/newsonline_uk_edition/front_page/rss.xml' 
) 

который возвращает что-то вроде:

<?xml version="1.0" encoding="UTF-8"?> 
<query xmlns:yahoo="http://www.yahooapis.com/v1/base.rng" yahoo:count="46" yahoo:created="2009-11-13T11:49:05Z" yahoo:lang="en-US" yahoo:updated="2009-11-13T11:49:05Z" yahoo:uri="http://query.yahooapis.com/v1/yql?q=select+content+from+search.termextract+where+context+in+%28select+title+from+rss+where+url%3D%27http%3A%2F%2Fnewsrss.bbc.co.uk%2Frss%2Fnewsonline_uk_edition%2Ffront_page%2Frss.xml%27+%29"> 
    <results> 
     <Result xmlns="urn:yahoo:cate">new york</Result> 
     <Result xmlns="urn:yahoo:cate">bolt gun</Result> 
     <Result xmlns="urn:yahoo:cate">stalker</Result> 
     <Result xmlns="urn:yahoo:cate">russia</Result> 
     <Result xmlns="urn:yahoo:cate">moon</Result> 
     <Result xmlns="urn:yahoo:cate">hijack</Result> 
     <Result xmlns="urn:yahoo:cate">yacht</Result> 
     <Result xmlns="urn:yahoo:cate">balloon</Result> 
     <Result xmlns="urn:yahoo:cate">parents</Result> 
     <Result xmlns="urn:yahoo:cate">bruce forsyth</Result> 
     <Result xmlns="urn:yahoo:cate">flu</Result> 

В конечном счете, хотя, я не думаю, что могу использовать это в коммерческом приложении, хотя из-за ограничений на t erm извлечения.

ответ

1

Вы говорите, что YQL выглядит многообещающим, поэтому я уверен, что вы уже исследовали это. Вы можете использовать две службы YQL вместе. search.termextract даст вам ключевые слова из запроса сделанного с search.news

select * from search.termextract where context in (select abstract from search.news where query="election")

Вам придется возиться, чтобы сделать где часть запроса конкретного к последним новостям.

От here: «Служба срочной выдачи ограничена 5 000 запросами на каждый IP-адрес в день и некоммерческим использованием. См. Информацию о ограничении скорости».

 Смежные вопросы

  • Нет связанных вопросов^_^