Я работаю над приложением, в котором я хотел бы получить список новостей из некоторых источников (например, BBC) и проанализируйте их для ключевых слов, которые я могу использовать против своих собственных данных тега. Очевидно, есть много веб-сервисов и API-интерфейсов, но что бы вы предложили в качестве хороших маршрутов.Что такое хорошие методы для извлечения списка ключевых слов для главных новостей за день
Одна вещь, которую я рассматривал, - это периодическая загрузка RSS-канала BBC News и разбор содержимого с использованием экстрактора термина Yahoo. Это кажется хорошим решением для меня, но термин экстрактор предназначен только для некоммерческого использования, и мое приложение является коммерческим.
YQL выглядит многообещающим, но я не уверен, насколько легко будет уплотнять данные до ключевых слов.
Все предложения приветствуются как для источника новостей, так и для извлечения ключевых слов/тегов, а также для коммерческих и некоммерческих целей.
Update:
здание по предложению ответа, вот YQL для захвата ключевых слов из ведущих британских новостных магазинов на BBC:
select content
from search.termextract
where context in (
select title
from rss
where url='http://newsrss.bbc.co.uk/rss/newsonline_uk_edition/front_page/rss.xml'
)
который возвращает что-то вроде:
<?xml version="1.0" encoding="UTF-8"?>
<query xmlns:yahoo="http://www.yahooapis.com/v1/base.rng" yahoo:count="46" yahoo:created="2009-11-13T11:49:05Z" yahoo:lang="en-US" yahoo:updated="2009-11-13T11:49:05Z" yahoo:uri="http://query.yahooapis.com/v1/yql?q=select+content+from+search.termextract+where+context+in+%28select+title+from+rss+where+url%3D%27http%3A%2F%2Fnewsrss.bbc.co.uk%2Frss%2Fnewsonline_uk_edition%2Ffront_page%2Frss.xml%27+%29">
<results>
<Result xmlns="urn:yahoo:cate">new york</Result>
<Result xmlns="urn:yahoo:cate">bolt gun</Result>
<Result xmlns="urn:yahoo:cate">stalker</Result>
<Result xmlns="urn:yahoo:cate">russia</Result>
<Result xmlns="urn:yahoo:cate">moon</Result>
<Result xmlns="urn:yahoo:cate">hijack</Result>
<Result xmlns="urn:yahoo:cate">yacht</Result>
<Result xmlns="urn:yahoo:cate">balloon</Result>
<Result xmlns="urn:yahoo:cate">parents</Result>
<Result xmlns="urn:yahoo:cate">bruce forsyth</Result>
<Result xmlns="urn:yahoo:cate">flu</Result>
В конечном счете, хотя, я не думаю, что могу использовать это в коммерческом приложении, хотя из-за ограничений на t erm извлечения.