2012-04-05 7 views
5
  • Is iso-8859-1 - соответствующее подмножество utf-8?
  • Что относительно iso-8859-n?
  • Что относительно окон-1252?

Если ответ не соответствует ни одному из вышесказанного, каковы непересекающиеся символы? Я тестирую некоторую логику, которая обнаруживает кодировки и хочет написать тесты, чтобы проверить, работает ли обнаружение.Набор символов Специальные символы

ответ

8

Is iso-8859-1 - соответствующее подмножество utf-8?

характер reportoire ИСО-8859-1 (первые 256 символов Unicode) является подмножеством, что из UTF-8 (каждый символ Unicode).

Однако characters U+0080 to U+00FF являются закодированы по-разному в двух кодировках.

  • ISO-8859-1 присваивает каждому из этих символов один байт от 80 к FF.
  • UTF-8 кодирует те же символы, что и двухбайтные последовательностей C2 80 до C3 BF.

Что относительно iso-8859-n?

Это 15 различных кодировок, которые содержат в общей сложности 614 различных символов. Некоторые из этих символов встречаются в нескольких «частях» ISO 8859, а некоторые нет. Вы должны быть более конкретными.

Я вижу, что ваш вопрос отмечен ISO-8859-2. Символы, которые находятся в -2, которые не являются -1:

Ă㥹ĆćČčĎďĐđĘęĚěĹ弾ŁłŃńŇňŐőŔŕŘřŚśŞşŠšŢţŤťŮůŰűŹźŻżŽžˇ˘˙˛˝

насчет Windows-1252?

Windows-1252 подобен ISO-8859-1, за исключением того, что он заменяет редко используемые управляющие символы в диапазоне 0x80-0x9F с печатными символами. Символы, которые находятся в Windows-1252, но не в ISO-8859-1 являются:

ŒœŠšŸŽžƒˆ˜–—‘’‚“”„†‡•…‰‹›€™

+0

Итак, вы утверждаете, что репертуар из ISO-8859-1 является собственным подмножеством в репертуар UTF-8 ? Я полагаю, что. Я не уверен, что повторение utf-8 равно повторению юникода. Я думал, что цель utf-16/utf-32 состояла в том, чтобы иметь возможность кодировать больше/всех символов Юникода соответственно. –

+1

Ahh .. Я посмотрел. Поскольку UTF-8 может представлять символы в виде нескольких байтов, он может выражать все повторы unicode. Это имеет смысл сейчас. –

0

Unicode - это надмножество всех этих наборов символов и почти всех установленных наборов символов. Вы можете найти список отображений всех этих наборов символов для кодов Unicode здесь: http://unicode.org/Public/MAPPINGS/.

 Смежные вопросы

  • Нет связанных вопросов^_^