Как опустить разметить и ssplit аннотаторов для анализа настроений

Для задачи анализа настроений по тексту, я использую следующие аннотатор для создания трубопровода:Как опустить разметить и ssplit аннотаторов для анализа настроений

аннотаторов = разметить, ssplit, анализировать настроения

После прочтения документации по аннотаторам я понял, что tokenize и ssplit берут весь текст и разбивают его на отдельные предложения, чтобы быть consdiered для дальнейшего синтаксического анализа. Проблема, с которой я сейчас работаю, - это анализ настроений твитов. Поскольку твиты в большинстве случаев не превышают строки, используя аннотатор tokenize и ssplit до того, как синтаксический анализ кажется излишним.

Я попытался исключить первые два, но это не позволит мне сделать выдавая сообщение об исключении в потоке «главный» java.lang.IllegalArgumentException: аннотатор «синтаксический анализ» требует комментатор «разметить»

Есть ли любым способом избежать использования аннотаторов tokenize и ssplit для повышения эффективности?

источник

2016-05-12 Shantanu Godbole

Да, если ваш текст уже обозначен и у вас есть файл с одним предложением в строке, вы можете указать токенизатору разделить маркеры только в пространствах и разделителе предложений, чтобы разделить предложения только на новые строки.

Опция для токенизатора: -tokenize.whitespace true и опция для сплиттера предложения -ssplit.eolonly true.

Дополнительную информацию о вариантах tokenizer и sentence splitter в CoreNLP documentation.

источник

2016-05-13 18:22:11

Как опустить разметить и ssplit аннотаторов для анализа настроений

ответ

Смежные вопросы