E.g. алгоритм Soundex оптимизирован для английского языка. Существует ли более универсальный алгоритм, который будет применяться к большим семействам языков?Как сделать Международный Soundex?
15
A
ответ
11
SOUNDEX действительно ориентирован на английский язык. Два других, которые учитывают более широкий спектр фонетических разниц, составляют: Double Metaphone и NYSIIS.
Они производят кодирование в гораздо большем возможном пространстве, чем SOUNDEX. Двойной метафон, в частности, включает сокращения с явной целью обработки альтернативных произношений на основе большего количества языков, чем английский.
Я сделал презентацию о нечеткой последовательности, совпадающей недавно, the slides может быть вам полезна.
Ссылка на ваши слайды сломана (404) –
@John: новая ссылка кажется http://asymmetrical-view.com/talks/#fuzzy-string-matching – Hace
Спасибо, я просто обновил ее, чтобы указать на PDF в соответствующем реестре github - надеюсь, что он будет оставаться постоянным. Благодарю. –