Is iso-8859-1 - соответствующее подмножество utf-8?
характер reportoire ИСО-8859-1 (первые 256 символов Unicode) является подмножеством, что из UTF-8 (каждый символ Unicode).
Однако characters U+0080 to U+00FF являются закодированы по-разному в двух кодировках.
- ISO-8859-1 присваивает каждому из этих символов один байт от
80
к FF
.
- UTF-8 кодирует те же символы, что и двухбайтные последовательностей
C2 80
до C3 BF
.
Что относительно iso-8859-n?
Это 15 различных кодировок, которые содержат в общей сложности 614 различных символов. Некоторые из этих символов встречаются в нескольких «частях» ISO 8859, а некоторые нет. Вы должны быть более конкретными.
Я вижу, что ваш вопрос отмечен ISO-8859-2. Символы, которые находятся в -2, которые не являются -1:
Ă㥹ĆćČčĎďĐđĘęĚěĹ弾ŁłŃńŇňŐőŔŕŘřŚśŞşŠšŢţŤťŮůŰűŹźŻżŽžˇ˘˙˛˝
насчет Windows-1252?
Windows-1252 подобен ISO-8859-1, за исключением того, что он заменяет редко используемые управляющие символы в диапазоне 0x80-0x9F с печатными символами. Символы, которые находятся в Windows-1252, но не в ISO-8859-1 являются:
ŒœŠšŸŽžƒˆ˜–—‘’‚“”„†‡•…‰‹›€™
Итак, вы утверждаете, что репертуар из ISO-8859-1 является собственным подмножеством в репертуар UTF-8 ? Я полагаю, что. Я не уверен, что повторение utf-8 равно повторению юникода. Я думал, что цель utf-16/utf-32 состояла в том, чтобы иметь возможность кодировать больше/всех символов Юникода соответственно. –
Ahh .. Я посмотрел. Поскольку UTF-8 может представлять символы в виде нескольких байтов, он может выражать все повторы unicode. Это имеет смысл сейчас. –