2017-02-08 14 views
-1

Есть ли хороший ресурс для поиска двух последних символов каждой плоскости, особенно самолетов 3-13?Unicode Noncharacters

Очевидно 0xFFFE и 0xFFFF является не характер, а также 0x10FFFE и 0x10FFFF, но я не могу найти полный список того, где последние символы каждой плоскости, так как я не могу сказать, где каждый самолет концы ,

На веб-сайте Юникода это означает, что последние два символа каждого плана не являются символами.

ответ

0

Unicode Character Database содержит достоверную информацию о состоянии каждой кодовой точки. Используя его, вы можете определить последнюю назначенную кодовую точку каждой плоскости. Это может (фактически, будет) меняться со временем, так как назначаются новые символы. Вам также нужно будет определить, что вы подразумеваете под «символом» - в частности, считаете ли вы, что коды частного использования используются как «символы».

1

Каждая плоскость Юникод содержит 2 коды, начиная с 0x000000, и последние два символа каждой плоскости являются нехарактерами. Поэтому все0x••FFFE и 0x••FFFF кодовые точки являются нехарактерами, где •• - это что-то от 0x00 до 0x10 (идентификация самолета).

0

..., поскольку я не могу определить, где заканчивается каждая плоскость.

Каждый самолет по определению заканчивается на U+xxFFFF.

На веб-сайте Юникода это означает, что последние два символа каждой плоскости не являются символами.

No. Unicode, стандартная версия 9.0 - Основные характеристики говорит (в разделе 23.7 Noncharacters):

Стандарт Unicode выделяет 66 noncharacter кодовых точек. Последние две кодовые точки каждой плоскости являются нехарактерами: U + FFFE и U + FFFF на BMP, U + 1FFFE и U + 1FFFF на плоскости 1 и т. Д., До U + 10FFFE и U + 10FFFF на плоскости 16, в общей сложности 34 кодовых пункта. Кроме того, в BMP имеется смежный диапазон еще 32 нехарактерных кодовых точек: U + FDD0..U + FDEF. По историческим причинам диапазон U + FDD0..U + FDEF содержится в блоке арабских презентационных форм-A, но эти нехарактеры не являются «арабскими нехарактерами» или «правосторонними символами справа налево» и не различаются ни в одном другой путь от других нехарактеров, за исключением значений их кодовой точки.

Обратите внимание на ключевое слово «кодовые точки», а не «символы», они всегда U + xxFFFE и U + xxFFFF.