Для трех векторов текстовых документов, имеющих различную длину в их векторов в ВСМ, где записи являются тс-IDF терминов:Как сходство косинусов используется с алгоритмом K-средних?
1: как косинусного подобия используется K-средних делает то, как кластеры построены.
Q2: Когда я использую TF-IDF algo. Его продукция отрицательных значений есть ли какие-либо проблемы в моих расчетах?
Пожалуйста, используйте следующие векторы документов - VSM (tf.idf), где все имеют различную длину вектора для объяснения целей.
Doc1 (0.134636045, -0.000281926, -0.000281926, -0.000281926, -0.000281926, 0)
Doc2 (-0.002354898, 0.012411358, 0.012411358, 0.09621575, 0.3815553)
Doc3(-0.001838258, 0.009688438, 0.019376876, 0.05633028, 0.59569238, 0.103366223, 0)
Я буду благодарен любому, кто может дать объяснение по поводу моего вопроса.
Я голосую, чтобы закрыть этот вопрос как не относящийся к теме, потому что этот вопрос кажется укорененным в математике, а не в программировании. Этот вопрос * может быть * затронут на некоторых других сайтах, связанных с математикой, таких как MathOverflow или [Mathematics] (http://math.stackexchange.com/help/on-topic), хотя сделайте свое собственное исследование для актуальности перед публикацией там , – HPierce