Прежде всего, я новичок в изучении python и nlp/machine. прямо сейчас у меня есть следующий код:python sklearn использует больше, чем просто функции подсчета для обучения наивных заливов
vectorizer = CountVectorizer(
input="content",
decode_error="ignore",
strip_accents=None,
stop_words = stopwords.words('english'),
tokenizer=myTokenizer
)
counts = vectorizer.fit_transform(data['message'].values)
classifier = MultinomialNB()
targets = data['sentiment'].values
classifier.fit(counts, targets)
теперь это на самом деле работает довольно хорошо. Я получаю разреженную матрицу через CountVectorizer
, а classifier
использует матрицу, а также цели (0,2,4)
.
Однако, что мне делать, если бы я хотел использовать больше функций в векторе вместо просто слов? Кажется, я не могу это понять. Заранее спасибо.
привет, спасибо за ваш ответ. эти ссылки кажутся полезными. Однако, я думаю, мой вопрос на самом деле еще проще, чем вы думаете. Я понимаю, что есть много доступных векторных инструментов. Но давайте просто скажем, что я хотел использовать общее количество слов самого сообщения в качестве дополнительной функции. это было бы простое целое число. в настоящее время функция 'classifier.fit' использует матрицу, возвращаемую' CountVectorizer'. Как добавить число слов к вектору функций, используемых «классификатором», чтобы использовать его как «counts», так и «count count»? – Micha