Я пытаюсь найти косинус сходство двух документов, представленных следующий образом:косинус сходства документов с весами
d1: [(0,1), (3,2), (6, 1)]
d2: [(1,1), (3,1), (5,4), (6,2)]
, где каждый документ вектора темы-вес, где темы первого элемент в кортеже и вес является вторым элементом
Я не уверен, как идти о вычислении сходства косинусов в этом случае с этой взвешенной схемой? Есть ли модуль/пакет в Python, который позволил бы мне это сделать?
Если векторы длинные или есть много возможных тем, то вы хотите держать их разреженными - в противном случае это опасно, чтобы сделать их плотными. – gabe
Правда, предполагая, что векторы разрежены, и там много тем. – mdml
@mdml - Спасибо, я предполагаю, что общее количество уникальных тем? Как я могу это найти? Количество тем может варьироваться от случая к случаю, мне, вероятно, понадобится способ подсчета их apriori – newdev14