Я новичок в scikit-learn и в настоящее время изучаю Naive Bayes (Multinomial). Прямо сейчас, я работаю над векторизации текста из sklearn.feature_extraction.text, и по какой-то причине, когда я вектурирую текст, слово «I» не появляется в выведенном массиве.CountVectorizer: «Я» не отображается в векторизованном тексте
Код:
x_train = ['I am a Nigerian hacker', 'I like puppies']
# convert x_train to vectorized text
vectorizer_train = CountVectorizer(min_df=0)
vectorizer_train.fit(x_train)
x_train_array = vectorizer_train.transform(x_train).toarray()
# print vectorized text, feature names
print x_train_array
print vectorizer_train.get_feature_names()
Выход:
1 1 0 1 0
0 0 1 0 1
[u'am', u'hacker', u'like', u'nigerian', u'puppies']
Почему не "я", кажется, появляются в названиях художественных? Когда я меняю его на «Ia» или что-то еще подобное, он появляется.
Pattern '(? И) \\ Ь \\ ш + \\ Ь' лучше, потому что он не вставляет слова с помощью юникодовых букв. – usamec