Есть ли опция в Stanford CoreNLP's tokenizer, чтобы предотвратить токены из пространства?Предотвращение токенов из помещения пространства в Stanford CoreNLP
E.g. если предложение «мой телефон 617 1555-6644», подстрока «617 1555» должна быть в двух разных токенах.
Я знаю вариант normalizeSpace
:
normalizeSpace: Является ли пробелов в токенов (телефонные номера, фракции заводятся в U + 00A0 (неразрывный пробел) Это опасно повернуть это для. большинство нашего программного обеспечения Stanford NLP, который не принимает ни одного места в жетонах.
, но я не хочу, чтобы маркеры содержать пробелы, включая неразрывный пробел.
Спасибо, токенизация только на пространствах немного грубая, хотя: / –