Я хочу добавить еще несколько слов в stop_words в TfidfVectorizer. Я следовал за решением в Adding words to scikit-learn's CountVectorizer's stop list. В списке прекращенных слов теперь содержатся слова «английский» и слова остановки, которые я указал. Но TfidfVectorizer не принимает мой список слов остановки, и я все еще могу видеть эти слова в списке моих функций. Ниже мой кодДобавление слов в список stop_words в TfidfVectorizer в sklearn
from sklearn.feature_extraction import text
my_stop_words = text.ENGLISH_STOP_WORDS.union(my_words)
vectorizer = TfidfVectorizer(analyzer=u'word',max_df=0.95,lowercase=True,stop_words=set(my_stop_words),max_features=15000)
X= vectorizer.fit_transform(text)
Я также попытался установить stop_words в TfidfVectorizer как stop_words = my_stop_words. Но все равно это не сработает. Пожалуйста помоги.
Я использовал ваш код и работал как [здесь] (https://gist.github.com/anonymous/043a0099b4c388d0686d). Я получил ожидаемый результат. Можете ли вы предоставить более подробную информацию? –
Я классифицирую твиты, содержащие URL-адреса. Теперь мои функции, которые я извлекаю с помощью SelectKBest, содержат эти URL-адреса. Поэтому я подумал о добавлении этих URL-адресов в список стоп-слов, чтобы он удалялся из моего набора функций. Я добавил эти URL-адреса, как показано выше. – ac11
Вот как моя остановка список слов выглядит следующим образом: frozenset ([ '', 'wA4qNj2o0b', 'все', 'fai5w3nBgo', 'Ikq7p9ElUW', '9W6GbM0MjL', 'четыре', 'WkOI43bsVj', 'x88VDFBzkO' , 'чей', 'YqoLBzajjo', 'NVXydiHKSC', 'HdjXav51vI', 'q0YoiC0QCD', 'to', 'cTIYpRLarr', 'nABIG7dAlr', 'под', '6JF33FZIYU', 'very', 'AVFWjAWsbF']) – ac11