2015-04-20 4 views
0

Существуют некоторые реальные двухбайтовые кодировки (DBCS)?Истинное двухбайтовое кодирование

  • За исключением UCS-2, UTF-16, конечно.
  • Я имею в виду кодирование, которое также сохраняет ASCII как 2 байта.
  • Я имею в виду нулевые байты. (00 20 - пробел)
  • Пожалуйста, сообщите, если он используется, если он устарел в стандартном/в использовании.

Тот же вопрос для кодирования 4 байта, существует любой (не UCS-4, UTF-32)?

Спасибо.

ответ

1

Нет, нет двухбайтовых наборов символов, которые удовлетворяют вашему списку требований. Это объясняется тем, что дизайнеры в тот же день использовали 7-разрядную ASCII в качестве отправной точки (хорошо для совместимости), затем добавляли дополнительные символы или многобайтовые стартовые коды в верхней половине из 256 байтовых значений.

Аналогично для четырехбайтовых наборов символов нет серьезного стандарта, прежде чем Юникод даже попытался обеспечить более 65536 символов.

Чтобы дать один пример, китайский Big5 использует определения ASCII для байт 0x00 до 0x7F, использует 0x81 до 0xFF в качестве начального байта для расширенных символов, а {0x40 до 0x7E, 0xA1 к 0xFE}, для второго байта. Это может кодировать максимум 20067 разных символов.

+0

Спасибо, я рад, что на него также ответил неевропейский человек. Точно мне нужно знать, если некоторые кодировки кодируют пробелы или новые строки с двойными байтами. (Я был mistenkly написал ASCII - но, как писал Джон, charset не должен содержать ASCII вообще) ... но я не нашел никого - http://www.fileformat.info/info/charset/index.htm ... –

2

Есть, конечно, устаревшие наборы символов, которые используют ровно два байта для каждого символа, но они вообще не кодируют символы ASCII вообще, предназначенные для дополнение однобайтовый набор символов, а не его замену. Все те, о которых я знаю, существуют для поддержки символов китайского, японского и/или корейского идеографа.

Существует множество устаревших документов, в которых используются такие кодировки, и я не удивлюсь, обнаружив, что в некоторых местах они все еще используются в новых документах.

Если вы пытаетесь определить, может ли ваше программное обеспечение игнорировать существование многобайтовых кодировок символов, отличных от UTF, то я боюсь, что вы не уйдете с легким ответом. Конечно, ваше программное обеспечение может сделать это, в том же смысле, что оно может игнорировать однобайтовые кодировки, отличные от ISO-8859-15, но только вы,, можете определить, будет ли ваша программа адекватно служить своей цели, если это так.

 Смежные вопросы

  • Нет связанных вопросов^_^