2010-05-18 12 views
1

Я найти косинус сходство между документами .. Я сделал это тако косинус сходстве

D1 = (8,0,0,1), где 8,0,0,1 являются Tf-IDF десятки термины t1, t2, t3, t4

D2 = (7,0,0,1)

сов (тета) = (56 + 0 + 0 + 1)/SQRT (64 + 49) SQRT (1 +1)

, который выходит быть

сов (тета) = 5

Теперь, что я могу оценить из этого значения ... Я не понимаю, что значит cos (theta) = 5 означает сходство между ними ... Я делаю все правильно?

+1

сов (theta) всегда между -1 и 1. Вы делаете что-то неправильно. Кроме того, это домашнее задание? – 2010-05-18 18:36:55

+0

yeah ... присваивание – jaskirat

ответ

2

Знаменатель ошибочен.

cosine similarity определяется как

  D1 · D2 
sim = ——————————— 
     |D1| |D2| 

Здесь

D1 · D2 = (7*8 + 0*0 + 0*0 + 1*1) = 57 
      ______________________ __ 
    |D2| = √ 7^2 + 0^2 + 0^2 + 1^2 = √50 
      ______________________ __ 
    |D1| = √ 8^2 + 0^2 + 0^2 + 1^2 = √65 

Таким образом, сходство должно быть (57/√ (50 * 65)) = 0.999846142, а не 5.

+0

oh я пренебрег нулевыми значениями .... как глупо от меня ... спасибо kennyTM ... благодарю так много ... – jaskirat

+0

@jaskirat: Вы не пренебрегли нулевыми значениями. Вы вычислили | D1 | и | D2 | ошибочно. Нет ничего как √ (7^2 + 8^2). – kennytm

+0

oh kk ... ну я взял ссылку от http: //www.miislita.com/information-retrieval-tutorial/cosine-similarity-tutorial.html ... – jaskirat