2017-01-25 25 views
2

Мы работаем над проектом Record linkage. Мы наблюдаем странное поведение от всех стандартной методике, как Яро Winkler, Левенштейн, N-Gram, Damerau-Левенштейна, индекс Жаккара, Соренсен-DiceЗапись связи с использованием сходства по строкам Методы

Say, Строка 1 = МИНИ СТАНОК НАБОР
Строка 2 = Weiler 13001 Набор принадлежностей для мини-шлифовальных станков, для использования с малыми шлифовальными станками с прямым углом
String 3 = видеооборудование Milwaukee, вращающийся осмотр, серия: M-SPECTOR 360, 2,7 дюйма в 640 x 480 пикселей ЖК-дисплей с высоким разрешением, пластик, черный/Красный

В приведенном выше случае строка 1 и строка 2 связаны с оценкой всех методов, как показано ниже.
Яро Винклер -> 0,391666651
Левенштейна -> 75
N-грамм, -> 0,9375
Damerau -> 75 Индекс
Jaccard -> 0
Соренсен-кубиком -> 0
Косинус -> 0

Но строка 1 и строка 3 совсем не связаны, но метод расстояния дает очень высокий балл.
Яро Винклер -> 0,435714275
Левенштейна -> 133
N-грамм, -> 0,953571439
Damerau -> 133 Индекс
Jaccard -> 1
Соренсен-кубиком -> 0
Косинус -> 0

Любые мысли.?

ответ

1

Все расчеты расстояний учитываются с учетом регистра. Следовательно, приведите их в один и тот же случай. Затем вы получите соответствующий счет.

0

Я считаю, что ваша цель здесь - проверить, являются ли эти два продукта одинаковыми или нет. Данные представляют собой разные источники, я думаю, в случае таких данных вам нужно будет выяснить, что самое важное упоминание стоит сравнить! Бренд, характеристики и т. Д.

Эти метрики следуют очень грубому понятию сходства !, не просто кормите данные.

Итак, сначала очистить (удалить знаки препинания, не важные слова), tokenize (сломать однословные предложения), тогда, возможно, вы сможете использовать fuzzywuzzy, чтобы помочь найти лучшее совпадение.