Как я могу предотвратить токенизатор spacy от разделения определенной подстроки при токенизации строки? Более конкретно, у меня есть предложение: После незарегистрированный папка ушла от оболочки. кот
Так что я собирал spacy из исходного кода. У меня установлен cython v23.4. когда я бегу pip install -e . в каталоге spaCy, я получаю это: `Получение файла: /// главная/Nitish/Spacy Полный вывод из ком
Spacy, похоже, не в состоянии правильно токенизировать выражения am/pm, где число и часть am/pm не разделены пробелом. Пример: «Что-то произошло в 9 утра» производит неожиданный маркер набор: Список о
Это более простой вопрос. Мы используем Spacy в нашей производственной системе. Во время тестирования много раз мы должны загружать полные неспешные модели (парсер + словарные векторы), которые могут