Мы работаем над проектом Record linkage. Мы наблюдаем странное поведение от всех стандартной методике, как Яро Winkler, Левенштейн, N-Gram, Damerau-Левенштейна, индекс Жаккара, Соренсен-DiceЗапись связи с использованием сходства по строкам Методы
Say, Строка 1 = МИНИ СТАНОК НАБОР
Строка 2 = Weiler 13001 Набор принадлежностей для мини-шлифовальных станков, для использования с малыми шлифовальными станками с прямым углом
String 3 = видеооборудование Milwaukee, вращающийся осмотр, серия: M-SPECTOR 360, 2,7 дюйма в 640 x 480 пикселей ЖК-дисплей с высоким разрешением, пластик, черный/Красный
В приведенном выше случае строка 1 и строка 2 связаны с оценкой всех методов, как показано ниже.
Яро Винклер -> 0,391666651
Левенштейна -> 75
N-грамм, -> 0,9375
Damerau -> 75 Индекс
Jaccard -> 0
Соренсен-кубиком -> 0
Косинус -> 0
Но строка 1 и строка 3 совсем не связаны, но метод расстояния дает очень высокий балл.
Яро Винклер -> 0,435714275
Левенштейна -> 133
N-грамм, -> 0,953571439
Damerau -> 133 Индекс
Jaccard -> 1
Соренсен-кубиком -> 0
Косинус -> 0
Любые мысли.?