Предотвращение токенов из помещения пространства в Stanford CoreNLP

Есть ли опция в Stanford CoreNLP's tokenizer, чтобы предотвратить токены из пространства?Предотвращение токенов из помещения пространства в Stanford CoreNLP

E.g. если предложение «мой телефон 617 1555-6644», подстрока «617 1555» должна быть в двух разных токенах.

Я знаю вариант normalizeSpace:

normalizeSpace: Является ли пробелов в токенов (телефонные номера, фракции заводятся в U + 00A0 (неразрывный пробел) Это опасно повернуть это для. большинство нашего программного обеспечения Stanford NLP, который не принимает ни одного места в жетонах.

, но я не хочу, чтобы маркеры содержать пробелы, включая неразрывный пробел.

источник

2016-04-06 Franck Dernoncourt

Вы можете попробовать установить tokenize.whitespace вариант true, но это будет токенизировать всегда и только по пробелам. Например, «это» больше не будет означать «это».

источник

2016-04-06 05:55:17

Спасибо, токенизация только на пространствах немного грубая, хотя: / –

Предотвращение токенов из помещения пространства в Stanford CoreNLP

ответ

Смежные вопросы