2010-04-21 6 views
2

Часть процесса требует применения строковых алгоритмов подобия.Рекомендации по метрике сходства строк (Java). Расстояние, звучит или комбо?

Результаты этого процесса будут сохранены и производятся, если скажем SS_Dataset.

Основываясь на этом наборе данных, необходимо принять дальнейшие решения.

Мои вопросы:

  • Должен ли я применить один или несколько алгоритмов струна подобия для получения SS_Dataset?

  • Любые сравнения между алгоритмами, которые вычисляют «расстояние» и «похожее на» похожее?

Производит ли одно семейство алгоритмов более точные результаты по сравнению с другими? Получает ли комбинация более точные результаты по подобию?

  • Можете ли вы рекомендовать реализации, с которыми вы работали?

Моя реализация будет включать в себя пакеты из следующих библиотек

http://www.dcs.shef.ac.uk/~sam/simmetrics.html

http://jtmt.sourceforge.net/

ответ

0

Что лучше полностью зависит от того, что вы пытаетесь сделать. Soundex и минимальное расстояние редактирования (aka Levenshtein) широко используются, потому что их легко понять. Они хороши, когда вы пытаетесь справиться с опечатками или ошибками на вкладке. Мне жаль, что я не могу помочь дальше, «вам придется поэкспериментировать с тем, насколько хорошо они работают для вашей конкретной цели».

+0

Я знаю, что мне нужно экспериментировать. Спасибо за время, чтобы ответить хотя. Что я пытаюсь сделать, это сопоставить записи (абстрактный термин) предметов из разных ресурсов. Эти записи не имеют ничего общего с атрибутом NAME. Мне нужно свести к минимуму вероятность получения неправильных совпадений, и я думал о нескольких алгоритмических приложениях для «дистанционных» и «звуковых» вычислений ... ура – Andreas

 Смежные вопросы

  • Нет связанных вопросов^_^