2013-12-06 2 views
1

Используя NLTK whitespacetokenizer, я могу заручиться лексикой с не-алфавитно-цифровыми терминами, но на этапе преобразования эти термины не учитываются, и они являются 0 во всех векторах признаков. Таким образом, проблема заключается даже в том, что я документировал документы с простым пространством белого пространства, мне также нужно изменить токен-фильтр CountVectorizer. Тем не менее, я не могу понять, какой тип регулярного рисунка я должен использовать? Есть идеи?Как установить sklearn CountVectorizer для включения не-буквенно-цифровых символов в качестве извлечения функции?

ответ

3

Из-за путаницы кажется, что вам нужно узнать RegEx (here).

Если вы хотите, маркер, чтобы соответствовать все, вы можете установить атрибут token_pattern в CountVectorizer как:

.* 

Значение будет соответствовать каждый маркер приходит из Tokenizer.

Если вы просто хотите, чтобы соответствовать не буквенно-цифровые маркеры, вы можете использовать:

[^A-Za-z0-9]*