Я только начал погружаться в Machine Learning, в частности, в Clustering. (Я использую Python, но это не имеет значения) Моя цель состоит, начиная с коллекции твитов (100K) о мире моды, выполнять KMeans над их текстом.Из текста в K-Means Векторы ввода
До сих пор я отфильтровывал тексты, усекая стоп-слова, бесполезные термины, знаки препинания; сделал лемматизацию (используя теги Part Of Speech для достижения лучших результатов).
Я показываю пользователю самые частые термины, хэштеги, биграммы, триграммы, .. 9грамм, чтобы он мог уточнить предварительную обработку, добавляя слова к бесполезным терминам.
Моя первоначальная идея состояла в том, чтобы использовать верхнюю п (1K) термины, как особенности, создание Еогеасп чирикнуть вектор фиксированного размера п (1K) , имеющий ячейку установить на значение, если верхний член (этой ячейки) появляются в этом твите (возможно, вычисление значения ячейки с помощью TFIDF).
Я что-то упустил (значения 0 будут учтены)? Могу ли я использовать n-граммы каким-то образом?
Этот scikit article довольно общий, и я не понимаю все это.
(Is уменьшение размерности НУА полезно или лучше уменьшение числа функций (так векторы размерности) вручную?)