У меня есть программа, которая читает кучу текста и анализирует его. Текст может быть на любом языке, но мне нужно проверить, чтобы японский и китайский специально анализировали их по-другому.Тестирование для японских/китайских символов в строке
Я прочитал, что могу проверить каждый символ на его номере юникода, чтобы узнать, находится ли он в диапазоне символов CJK. Это полезно, однако я бы хотел отделить их, если возможно, от обработки текста от разных словарей. Есть ли способ проверить, является ли персонаж японским или китайским?
Вы знаете кодовое, или вы должны догадаться, что тоже? –
Если вы не знаете, кодовый набор, он может реально сделать вашу жизнь проще, чем иметь все в юникод. – Elijah
Я заводиться преобразования все в юникод в любом случае для анализа (я вынужден на самом деле) .Я могу обнаружить набор кодов перед преобразованием, этот вопрос больше, если набор кодов уже юникод. – landyman