Я изучаю методы soundex, metaphone и другие методы поиска строк за последние несколько дней, и в моем понимании оба алгоритма хорошо работают при обработке неанглийских слов, транслитерированных на английский.Включение soundex/metaphone для неанглийских символов
Однако требование, которое у меня было бы, было бы для такого поиска работать на оригинальных, непереводимых языках, вмещающих алфавиты, такие как немецкий, норвежский и даже кириллические алфавиты.
Есть ли алгоритмы поиска, способные полностью обрабатывать эти алфавиты? Или мне лучше использовать сторонние библиотеки полнотекстового поиска, такие как Lucene? Следовательно, вопрос тогда становится «делает ли Люцены неанглийскими алфавитами?»
Если ваш прецедент - это просто текстовый поиск на неанглоязычных языках, вам может не понадобиться soundex. Вам нужна Lucene с соответствующим анализатором, как сказал ire_and_curses. Если вы хотите обрабатывать разные варианты написания одного и того же слова, вам понадобится алгоритм фонетического соответствия. Можете ли вы рассказать больше о своем прецеденте? –