Рекомендации по метрике сходства строк (Java). Расстояние, звучит или комбо?

Часть процесса требует применения строковых алгоритмов подобия.Рекомендации по метрике сходства строк (Java). Расстояние, звучит или комбо?

Результаты этого процесса будут сохранены и производятся, если скажем SS_Dataset.

Основываясь на этом наборе данных, необходимо принять дальнейшие решения.

Мои вопросы:

Должен ли я применить один или несколько алгоритмов струна подобия для получения SS_Dataset?
Любые сравнения между алгоритмами, которые вычисляют «расстояние» и «похожее на» похожее?

Производит ли одно семейство алгоритмов более точные результаты по сравнению с другими? Получает ли комбинация более точные результаты по подобию?

Можете ли вы рекомендовать реализации, с которыми вы работали?

Моя реализация будет включать в себя пакеты из следующих библиотек

http://www.dcs.shef.ac.uk/~sam/simmetrics.html

http://jtmt.sourceforge.net/

источник

2010-04-21 Andreas

Что лучше полностью зависит от того, что вы пытаетесь сделать. Soundex и минимальное расстояние редактирования (aka Levenshtein) широко используются, потому что их легко понять. Они хороши, когда вы пытаетесь справиться с опечатками или ошибками на вкладке. Мне жаль, что я не могу помочь дальше, «вам придется поэкспериментировать с тем, насколько хорошо они работают для вашей конкретной цели».

источник

2010-04-21 23:01:40 redtuna

Я знаю, что мне нужно экспериментировать. Спасибо за время, чтобы ответить хотя. Что я пытаюсь сделать, это сопоставить записи (абстрактный термин) предметов из разных ресурсов. Эти записи не имеют ничего общего с атрибутом NAME. Мне нужно свести к минимуму вероятность получения неправильных совпадений, и я думал о нескольких алгоритмических приложениях для «дистанционных» и «звуковых» вычислений ... ура – Andreas

Рекомендации по метрике сходства строк (Java). Расстояние, звучит или комбо?

ответ

Смежные вопросы