DBpedia - фантастический ресурс высокого качества. Для того, чтобы превратить свой контент в набор соответствующих понятий DBpedia, однако, вам нужно будет точно определить их в тексте, который включает в себя, по меньшей мере в два этапа:
Определить понятия DBpedia в содержании: Это включает в себя распознавание имен концепций (и альтернативных имен) в тексте, а также устранение неоднозначности среди всех возможных значений каждой фразы. Термин «Солнце» может относиться к десяткам возможных концепций в соответствии с его disambiguation page, включая звезду, газеты, имена людей и т. Д. Это включает идентификацию, классификацию и привязку объектов.
Определите, какая из этих концепций интересна: например, вы хотите, чтобы концепция «Определенная статья» показывалась, когда текст включает в себя термин «the» (который перенаправляет The)?
Возможно, вы захотите рассмотреть существующую библиотеку или службу текстовой аналитики, которая поддерживает привязку объекта к DBpedia. Один замечательный инструмент для индексации темы - Maui, который был разработан Alyona Medelyan во время ее PhD. Еще одно большое решение с открытым исходным кодом - Wikipedia Miner Дэвида Милна в том же университете.
Две коммерческие услуги, которые обеспечивают соединительные концепциям DBpedia являются Zemanta и Extractiv (позволяют некоторый уровень свободного использования). DBpedia spotlight опция. Другие, которые могут предоставить эти возможности, перечислены по адресу: https://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais
Раскрытие информации: I [используется] для работы в Extractiv (несуществующей), которая питается от NLP Language Computer Corporation.