2013-11-18 7 views
1

Юникод имеет огромное количество кодовых точек, как я могу проверить, что код является символом (например, «!» Или «☭»), числом (например, «4» или «9»), буквой (например, «a "или" え ") или контрольный символ (обычно не отображаются напрямую)?Различия между символом, числом и буквенными кодовыми точками в Юникоде?

Есть ли какая-либо логика за положением персонажа и каким персонажем он является (в отличие от того, из какого алфавита он является частью), если нет, существуют ли какие-либо существующие ресурсы, которые классифицируют, какие диапазоны есть что?

ответ

1

Это будет сделано через General Category property этих кодовых точек. Это часть канонического набора данных UnicodeData.txt, и каждая серьезная библиотека, связанная с Юникодом, должна иметь некоторый способ получить это свойство.

+0

Я не совсем уверен, какая общая категория полезна, но для этого она приводит к множеству вводящих в заблуждение/неожиданных результатов. –

+0

Что это значит? Общая категория четко различает «символы» ('P *' и 'S *'), числа ('N *'), буквы ('L *') и управляющие символы ('Cc') и другие. –

+0

Что такое Nl? –