5

У меня много текстов (миллионов), от 100 до 4000 слов. Тексты отформатированы как написанные работы с пунктуацией и грамматикой. Все на английском.Эффективно извлекать объекты WikiData из текста

Проблема проста: Как извлечь каждый объект WikiData из заданного текста?

Сущность определяется как каждое существительное, правильное или регулярное. То есть, имена людей, организаций, места и вещи, как стул, картофель т.д.

До сих пор я попытался следующее:

  1. разметить текст с OpenNLP, а также использование pre-trained models для извлечения людей, местоположения, организации и регулярные существительных ,
  2. Применить Porter Stemming, если применимо.
  3. Сопоставьте все извлеченные существительные с wmflabs-API, чтобы получить потенциальный идентификатор WikiData.

Этот работает, но я чувствую, что могу сделать лучше. Одним из очевидных улучшений было бы кэширование соответствующих частей WikiData локально, что я планирую делать. Однако, прежде чем я это сделаю, я хочу проверить, есть ли другие решения.

Предложения?

Отмечено вопрос Скала, потому что я использую Spark для выполнения задачи.

ответ

2

Некоторые предложения:

  • считают Stanford ЯЭР по сравнению с OpenNLP, чтобы увидеть, как он сравнивает на вашем корпусе
  • Интересно при значении вытекающих для большинства имен сущностей
  • Я подозреваю, что вы могли бы потерять информацию, разделив задачу на дискретные этапы
  • хотя Викидата новая, задача не в том, чтобы вы могли посмотреть документы для Freebase | DBpedia | распознавание сущности Википедии | значения

В частности, DBpedia Spotlight - это одна система, предназначенная именно для этой задачи.

http://static.googleusercontent.com/media/research.google.com/en//pubs/archive/38389.pdf http://ceur-ws.org/Vol-1057/Nebhi_LD4IE2013.pdf

+0

Морфологический фактически делается только на существительные, идентифицированных как не собственно и множественное число, которое не является большинством. Спасибо за бумаги/указав прожектор dbpedia. Я не знал об этом. – habitats

+1

DBpedia фактически связан с Wikidata (по какой-то причине я пропустил это), поэтому я буду отмечать ваш ответ как принятый, так как я смог использовать прожектор DBpedia для извлечения идентификатора DBpedia и использовать Sparql + RDF для извлечения идентификаторов Wikidata непосредственно. – habitats