Удаление знаков акцента (диакритических знаков) из латинских символов для сравнения

Мне нужно сравнить названия европейских мест, которые написаны латинским алфавитом с акцентами (диакритики) на некоторых персонажах. Есть много имен Центральной и Восточной Европы, которые написаны с такими же знаками, как латинские символы, на ž и ü, но некоторые люди пишут имена только с использованием обычных латинских символов без знаков акцента, таких как z и u.Удаление знаков акцента (диакритических знаков) из латинских символов для сравнения

Мне нужен способ распознать мою систему, например mšk žilina, такой же, как msk zilina, и аналогичный для всех других символов с акцентом. Есть ли простой способ сделать это?

источник

2010-07-11 Oliver

Вы можете использовать java.text.Normalizer и little regex, чтобы избавиться от diacritical marks.

public static String removeDiacriticalMarks(String string) { 
    return Normalizer.normalize(string, Form.NFD) 
     .replaceAll("\\p{InCombiningDiacriticalMarks}+", ""); 
}

Пример использования:

String text = "mšk žilina"; 
String normalized = removeDiacriticalMarks(text); 
System.out.println(normalized); // msk zilina

источник

2010-07-11 12:04:07 BalusC

Отлично, спасибо. – Oliver

Добро пожаловать. – BalusC

Возможно, вы знаете нормализатор текста для объективного C =) У меня такая же проблема –

Удаление знаков акцента (диакритических знаков) из латинских символов для сравнения

ответ

Смежные вопросы