5

Что такое технически правильный способ ссылаться на символы «высокий ascii» или «расширенный ascii»? Я имею в виду не только диапазон 128-255, но и любой символ за пределами диапазона 0-127.Каков правильный технический термин для символов «высокого ascii»?

Часто их называют диакритическими, акцентированными буквами, иногда случайно называемыми «национальными» или неанглийскими символами, но эти имена либо неточны, либо охватывают только подмножество возможных символов.

Какой правильный, точный термин, который сразу распознают программисты? И какой будет лучший английский термин для использования при разговоре с нетехнической аудиторией?

+1

Я старался быть кратким, но, возможно, я должен был объяснить, почему я спросил. Я переводчик, моя работа - локализация программного обеспечения. Часто (все еще!) Я сталкиваюсь с ошибками, когда на этих языках отображаются только те «национальные», «расширенные» символы на моем языке, как правило, из-за неправильной кодовой страницы в какой-то момент. Поэтому мне нужен термин для обозначения этих конкретных символов, так что мне не всегда приходится прибегать к описательному предложению, если это возможно. Моя аудитория - программисты, инженеры и менеджеры, для которых английский язык не всегда является их родным языком. –

ответ

17

"Non-ASCII символы"

+1

Кажется, определение отрицанием - это лучшее, что мы можем сделать.Как только мы добавим «Юникод», этот термин не применим в контекстах, отличных от Юникода, и т. Д. Мне понравилась идея sgm «trans-ascii», но новая монета не сократит ее, особенно при общении на разных языках , –

-1

Не-ASCII символы Юникода.

+1

Это неверно. Unicode не имеет ничего общего с ASCII, за исключением того, что он был обратно совместим для первых 127 кодовых точек. –

+0

В этом суть. Все символы Unicode, которые не имеют эквивалентов ASCII. – Amok

+2

@Dervin: так же, как значения более 127 не имеют ничего общего с ASCII. –

0

"Расширенная ASCII" является термин, который я хотел бы использовать, что означает "символы за пределами первоначальной 0-127".

Unicode - один из возможных наборов расширенных символов ASCII, и довольно, довольно большой.

UTF-8 - это способ представления символов Unicode, совместимых с исходным кодом ASCII.

+0

На самом деле, «Extended ASCII» будет включать 0-127; моя ошибка! –

+2

Моя мысль была «extended ascii» относится только к 128-255. Все, что не может быть выражено в этом диапазоне, на самом деле не является ascii :) –

+2

Обратите внимание также (из Википедии), что использование термина «расширенный ASCII» подверглось критике, поскольку его можно ошибочно принять за расширение стандарта ASCII , – thomasrutter

0

Вы можете использовать такой термин, как «trans-ASCII», «supra-ASCII», «ultra-ASCII» и т. Д. На самом деле «meta-ASCII» будет еще приятнее, поскольку он ссылается на мета-бит.

+0

Мне нравится «trans-ascii», и я думаю, что он правильно выражает эту идею, но я в первую очередь ищу хороший термин для общения с концепцией. Использование самопринятого термина может не сделать этого: –

2

Коды символов ASCII выше 127 не определены. многие поставщики оборудования и программного обеспечения разработали собственный набор символов для значения 128-255. Некоторые выбрали символы рисования, выбрали символы акцента, другие - другие.

Unicode - это попытка создать универсальный набор кодов символов, который включает символы, используемые на большинстве языков. Это включает в себя не только традиционные западные алфавиты, но и кириллицу, арабский, греческий и даже большой набор персонажей из китайского, японского и корейского языков, а также многие другие языки как современные, так и древние.

Существует несколько вариантов реализации Unicode. Один из самых популярных, если UTF-8. Основной причиной такой популярности является то, что она обратно совместима с ASCII, коды символов от 0 до 127 одинаковы для ASCII и UTF-8.

Это означает, что лучше сказать, что ASCII является подмножеством UTF-8. Код символов 128 и выше не ASCII. Они могут быть UTF-8 (или другим Unicode), или они могут быть заказной реализацией поставщиком оборудования или программного обеспечения.

+4

UTF не являются «реализациями» Unicode. Они кодируют текст Юникода в байты. Текст Юникода представлен как последовательность чисел (* not * 'int' или 'long's, * numbers *), а UTF - это способы перевода каждого числа в последовательность из одного или нескольких байтов. – yfeldblum

+0

Джим, спасибо, но я более или менее осознаю, что это такое :) Я искал точное имя. –

0

Если вы говорите «Высокий ASCII», вы по определению в диапазоне 128-255 десятичных знаков. Сам ASCII определяется как однобайтное (фактически 7-битное) представление символа; использование более высокого бита для неанглийских символов произошло позже и привело к созданию страниц кода, которые определяли конкретные символы, представленные конкретными значениями. Любое многобайтовое (> 255 десятичное значение) не является ASCII.

0

Битовая последовательность, которая не представляет символ ASCII, не является однозначно символом Юникода.

В зависимости от характера кодирующего вы используете, это может быть:

  • недействительными битовая последовательность
  • символ Unicode
  • ИСО-8859-х символы
  • Microsoft 1252
  • символ в кодировке какого-либо другого символа
  • ошибка, двоичные данные и т. Д.

Единственное определение, которое будет соответствовать всем этим ситуаций:

  • Не является ASCII символов

быть очень педантичный, даже «не-ASCII символов» будет не точно подходят для всех этих ситуаций, потому что иногда битовая последовательность вне этого диапазона может быть просто недопустимой битовой последовательностью, а не символом вообще.

0

Взятые слова из онлайн-ресурса (Cool website though), потому что я счел нужным написать и ответить.

Вначале включались только заглавные буквы и цифры, но в 1967 году были добавлены строчные буквы и некоторые управляющие символы, образующие то, что известно как US-ASCII, то есть символы от 0 до 127. Итак, этот набор из 128 персонажи были опубликованы в 1967 году как стандартные, содержащие все, что вам нужно написать на английском языке.

В 1981 году IBM разработала расширение 8-разрядного кода ASCII, называемого «кодовая страница 437», в этой версии были заменены некоторые устаревшие управляющие символы для графических символов. Также было добавлено 128 символов с новыми символами, знаками, графикой и латинскими буквами, все знаки препинания и символы, необходимые для написания текстов на других языках, таких как испанский. Таким образом, были добавлены символы ASCII от 128 до 255.

IBM включает поддержку этой кодовой страницы в аппаратном обеспечении своей модели 5150, известной как «IBM-PC», считающейся первым персональным компьютером. В операционной системе этой модели «MS-DOS» также использовался этот расширенный код ASCII.