2011-01-20 1 views
19

Я изучаю, как я могу использовать информацию о таксономии Википедии, чтобы извлекать теги/ключевые слова из моего контента.Как использовать DBPedia для извлечения тегов/ключевых слов из содержимого?

Я нашел статьи о DBPedia. DBpedia - это сообщество усилий для извлечения структурированной информации из Википедии и для предоставления этой информации в Интернете.

Кто-нибудь использовал их веб-сервисы? Вы знаете, как они работают и насколько они надежны?

ответ

20

DBpedia - фантастический ресурс высокого качества. Для того, чтобы превратить свой контент в набор соответствующих понятий DBpedia, однако, вам нужно будет точно определить их в тексте, который включает в себя, по меньшей мере в два этапа:

  1. Определить понятия DBpedia в содержании: Это включает в себя распознавание имен концепций (и альтернативных имен) в тексте, а также устранение неоднозначности среди всех возможных значений каждой фразы. Термин «Солнце» может относиться к десяткам возможных концепций в соответствии с его disambiguation page, включая звезду, газеты, имена людей и т. Д. Это включает идентификацию, классификацию и привязку объектов.

  2. Определите, какая из этих концепций интересна: например, вы хотите, чтобы концепция «Определенная статья» показывалась, когда текст включает в себя термин «the» (который перенаправляет The)?

Возможно, вы захотите рассмотреть существующую библиотеку или службу текстовой аналитики, которая поддерживает привязку объекта к DBpedia. Один замечательный инструмент для индексации темы - Maui, который был разработан Alyona Medelyan во время ее PhD. Еще одно большое решение с открытым исходным кодом - Wikipedia Miner Дэвида Милна в том же университете.

Две коммерческие услуги, которые обеспечивают соединительные концепциям DBpedia являются Zemanta и Extractiv (позволяют некоторый уровень свободного использования). DBpedia spotlight опция. Другие, которые могут предоставить эти возможности, перечислены по адресу: https://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais

Раскрытие информации: I [используется] для работы в Extractiv (несуществующей), которая питается от NLP Language Computer Corporation.

4

Для этого процесса вы можете использовать Apache Stanbol. Entityhub компонент Apache Stanbol обеспечивает создание пользовательских индексов DBPedia на основе ваших потребностей. Затем вы можете использовать компонент Enhancer для извлечения объектов из вашего места.

Последующий почтовый поток может быть вам полезен.
http://markmail.org/message/52266yl5ohijxiof

Вы можете получить доступ к демо-версии работает Apache Stanbol по следующей ссылке:
http://dev.iks-project.eu/

Вы также можете задать дополнительные вопросы stanbol-dev AT incubator.apache.org.

 Смежные вопросы

  • Нет связанных вопросов^_^