2016-06-12 26 views
0

Я работаю над латентным семантическим анализом, я пытаюсь получить подобие из двух документов. Я запускаю мой код латентного семантического анализа на Python и, когда я запускаю его я получаю:Как получить подобие от LSA

Here are the singular values 
[ 0.7376057 0.4596623 0.25422212] 
Here are the first 3 columns of the U matrix 
[[ 0.98465137 -0.172792 -0.02458864] 
[ 0.15675976 0.81362269 0.55986114] 
[ 0.07673365 0.55512255 -0.82822153]] 
Here are the first 3 rows of the Vt matrix 
[[ 0.08861949 0.02992777 0.36751379 0.9253024 ] 
[ 0.78716383 0.34742637 0.43792207 -0.26056147] 
[ 0.29462756 -0.93722956 0.17407106 -0.06704194]] 

Как я найти сходство с этого номера?

ответ

0

https://en.wikipedia.org/wiki/Latent_semantic_analysis объясняет LSI очень хорошо, также ваша проблема.

скажем, вы хотите определить сходство между документами i и j. взять I-й столбец V^т (= d_i) и J-го столбца V^т (= d_j)

взять косинус подобие DIAG (S) * d_i и Diag (S) * d_j

Чем ближе это к +1, тем больше у них похоже