Слишком много комбинаций полуширины, полной ширины, катакана, хираганы, кандзи и использования символов-заменителей (например, そ вместо ん).Как я могу стандартизировать японский, поэтому я могу выполнить проверку слов на запрещенные слова в Lua?
У Python есть пакет под названием jcconv, который поможет мне сделать то, что мне нужно. Я хочу преобразовать строки в стандартную форму, чтобы я мог спуститься по моему ограниченному списку слов.
Возможно ли это в Lua?
Что делает слово запрещенным? Что это значит? –
Вы можете начать с преобразования текста из Unicode NFC в NFKC. Это должно заботиться о множестве эквивалентов, таких как полуширина и полная ширина, разложенные формы и т. Д. Это не поможет вам с кубитами, такими как そ для ん или такими вещами (люди действительно это делают? Эти 2 персонажа не звучат одинаково!) – Celada
Когда написано в катакана, ソ и ン похожи друг на друга – slek120