Используя NLTK whitespacetokenizer, я могу заручиться лексикой с не-алфавитно-цифровыми терминами, но на этапе преобразования эти термины не учитываются, и они являются 0 во всех векторах признаков. Таким образом, проблема заключается даже в том, что я документировал документы с простым пространством белого пространства, мне также нужно изменить токен-фильтр CountVectorizer. Тем не менее, я не могу понять, какой тип регулярного рисунка я должен использовать? Есть идеи?Как установить sklearn CountVectorizer для включения не-буквенно-цифровых символов в качестве извлечения функции?
1
A
ответ
3
Из-за путаницы кажется, что вам нужно узнать RegEx (here).
Если вы хотите, маркер, чтобы соответствовать все, вы можете установить атрибут token_pattern
в CountVectorizer
как:
.*
Значение будет соответствовать каждый маркер приходит из Tokenizer.
Если вы просто хотите, чтобы соответствовать не буквенно-цифровые маркеры, вы можете использовать:
[^A-Za-z0-9]*