2016-05-12 9 views
0

Для задачи анализа настроений по тексту, я использую следующие аннотатор для создания трубопровода:Как опустить разметить и ssplit аннотаторов для анализа настроений

аннотаторов = разметить, ssplit, анализировать настроения

После прочтения документации по аннотаторам я понял, что tokenize и ssplit берут весь текст и разбивают его на отдельные предложения, чтобы быть consdiered для дальнейшего синтаксического анализа. Проблема, с которой я сейчас работаю, - это анализ настроений твитов. Поскольку твиты в большинстве случаев не превышают строки, используя аннотатор tokenize и ssplit до того, как синтаксический анализ кажется излишним.

Я попытался исключить первые два, но это не позволит мне сделать выдавая сообщение об исключении в потоке «главный» java.lang.IllegalArgumentException: аннотатор «синтаксический анализ» требует комментатор «разметить»

Есть ли любым способом избежать использования аннотаторов tokenize и ssplit для повышения эффективности?

ответ

2

Да, если ваш текст уже обозначен и у вас есть файл с одним предложением в строке, вы можете указать токенизатору разделить маркеры только в пространствах и разделителе предложений, чтобы разделить предложения только на новые строки.

Опция для токенизатора: -tokenize.whitespace true и опция для сплиттера предложения -ssplit.eolonly true.

Дополнительную информацию о вариантах tokenizer и sentence splitter в CoreNLP documentation.