0

У меня есть векторы BOW, и мне интересно, есть ли алгоритм сокращения контролируемого размера в sklearn или gensim, способный принимать высокомерные, контролируемые данные и проецировать его в более низкую которое сохраняет дисперсию между этими классами.контролируемый размерность редукция/тема модели с использованием sklearn или gensim

На самом деле я пытаюсь найти правильный показатель для классификации/регрессии, и я считаю, что использование размерности может мне помочь. Я знаю, что есть неконтролируемые методы, но я хочу сохранить информацию на этикетке.

ответ

-1

Вы можете выполнять уменьшение размеров без контроля или контролироваться, но с разными ярлыками, чем ваши метки-метки.

Например, вы можете обучить логистический регрессионный классификатор с набором данных, содержащим 100 тем. вывод этого классификатора (100 значений) с использованием ваших данных обучения может быть уменьшенным набором функций, уменьшающим размерность.

+0

Такой подход не даст желаемых результатов, потому что вы изучаете надзор за уже приведенным набором –

0

FastText - осуществление исследований в Facebook, по сути, поможет вам достичь того, о чем вы просили. Поскольку вы спрашивали о gensim, я полагаю, вы могли бы знать о word2vec в gensim.

Теперь слово2vec было предложено Миколовым в Google. Миколов и его команда в Facebook ahs придумали fastText, который учитывает информацию о словах и подслоях. Это также позволяет классифицировать текст.