0

Для трех векторов текстовых документов, имеющих различную длину в их векторов в ВСМ, где записи являются тс-IDF терминов:Как сходство косинусов используется с алгоритмом K-средних?

1: как косинусного подобия используется K-средних делает то, как кластеры построены.

Q2: Когда я использую TF-IDF algo. Его продукция отрицательных значений есть ли какие-либо проблемы в моих расчетах?

Пожалуйста, используйте следующие векторы документов - VSM (tf.idf), где все имеют различную длину вектора для объяснения целей.

Doc1 (0.134636045, -0.000281926, -0.000281926, -0.000281926, -0.000281926, 0) 
Doc2 (-0.002354898, 0.012411358, 0.012411358, 0.09621575, 0.3815553) 
Doc3(-0.001838258, 0.009688438, 0.019376876, 0.05633028, 0.59569238, 0.103366223, 0) 

Я буду благодарен любому, кто может дать объяснение по поводу моего вопроса.

+0

Я голосую, чтобы закрыть этот вопрос как не относящийся к теме, потому что этот вопрос кажется укорененным в математике, а не в программировании. Этот вопрос * может быть * затронут на некоторых других сайтах, связанных с математикой, таких как MathOverflow или [Mathematics] (http://math.stackexchange.com/help/on-topic), хотя сделайте свое собственное исследование для актуальности перед публикацией там , – HPierce

ответ

0

Косинус-сходство означает, что вы принимаете точечный продукт вектора/k среднего центра, а не евклидова расстояния.

Dot продукт a.x b.x + a.y b.y ... + a.zz * b.zz для всех измерений. Обычно вы сначала нормализуете векторы. Затем вызовите acos() на результат.

По сути, вы делите результаты на сектора, а не на кластеры с произвольной кладкой.