2015-09-19 6 views
1

Я знаю, что этот вопрос задавали раньше - но ответ не был удовлетворительным (в смысле, что ответ был всего лишь ссылкой).Есть ли способ получить «исходные» текстовые данные для OpenNLP?

Итак, мой вопрос в том, есть ли способ расширить существующие модели openNLP? Я уже знаю о технике с DBPedia/Wikipedia. Но что, если я просто хочу добавить некоторые строки текста для улучшения моделей - действительно ли нет способа? (Если так - это было бы действительно глупо ...)

ответ

3

К сожалению, вы не можете. См. this question, в котором содержится подробный ответ на ту же проблему.

Я думаю, что это проблема, потому что, когда вы имеете дело с текстами, у вас часто возникают проблемы с лицензированием. Например, вы не можете построить корпус на основе данных Twitter и опубликовать его в сообществе (см. this paper для получения дополнительной информации).

Таким образом, часто компании строят специфические для домена корпорации и используют их внутри страны. Например, мы сделали это в нашем исследовательском проекте. Поэтому мы создали инструмент (Quick Pad Tagger) для эффективного создания аннотированных корпусов (см. here).

+0

Wow ok. Спасибо за вашу помощь. Это действительно отстой! openNLP выиграл бы много, если бы больше людей обучали моделям! –

+0

Я предоставил некоторую дополнительную информацию (см. Обновленный ответ). Надеюсь, что это полезно для вас. Не возражаете ли вы правильно отметить ответ? – Schrieveslaach

+0

Уверенный :) Забыл. Большое спасибо за вашу помощь. Я работаю прямо сейчас, но позже у меня будет подробный обзор ссылок! Ваши F-результаты впечатляют! Gj на этом –

1

Хорошо, я думаю, для этого нужен отдельный ответ. Я нашел базу данных Яго: http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago//

Эта база данных кажется просто фантастической (с первого взгляда). Вы можете загрузить все помеченные данные и поместить их в базу данных (они уже предоставляют инструменты для этого).

Следующим этапом является «рефакторинг» меченые объекты так, что OpenNLP может использовать его (OpenNLP использует н., Как это <START:person> Pierre Vinken <END>)

Затем вы создаете несколько текстовых файлов и обучать его с OpenNLP доставлен учебным пособием.

Не уверен, что 100% это будет работать, но я вернусь и скажу вам.

+0

Насколько хорошо это работало для вас @ fabian-lurz? – Vic