предположит, что вы имеете два пользователя с наборами атрибутов, как так:Jaccard сходства по всем наборам с синонимами
userA = {"happy", "excited"}
userB = {"sad", "anxious"}
Теперь, если мы должны были вычислить Jaccard подобия этого, было бы 0. Тем не менее, мы хотим чтобы определить, что excited
очень похож на anxious
.
Вопрос в том, как это можно структурировать?
Могу ли я определить другой набор слов, которые являются синонимами для excited
? Как я тогда буду учитывать это в вычислении индекса Jaccard?