Коды символов ascii онлайн. Кодировка ASCII

Материал для самостоятельного изучения по теме Лекции 2

Кодировочная таблица ASCII (ASCII - American Standard Code for Information Interchange - Американский стандартный код для обмена информацией).

Всего с помощью таблицы кодирования ASCII (рисунок 1) можно закодировать 256 различных символов. Эта таблица разделена на две части: основную (с кодами от OOh до 7Fh) и дополнительную (от 80h до FFh, где буква h обозначает принадлежность кода к шестнадцатеричной системе счисления).

Рисунок 1

Для кодировки одного символа из таблицы отводится 8 бит (1 байт). При обработке текстовой информации один байт может содержать код некоторого символа - буквы, цифры, знака пунктуации, знака действия и т.д. Каждому символу соответствует свой код в виде целого числа. При этом все коды собираются в специальные таблицы, называемые кодировочными. С их помощью производится преобразование кода символа в его видимое представление на экране монитора. В результате любой текст в памяти компьютера представляется как последовательность байтов с кодами символов.

Например, слово hello! будет закодировано следующим образом (таблица 1).

Таблица 1

На рисунке 1 представлены символы, входящие в стандартную (английскую) и расширенную (русскую) кодировку ASCII.

Первая половина таблицы ASCII стандартизована. Она содержит управляющие коды (от 00h до 20h и 77h). Эти коды из таблицы изъяты, так как они не относятся к текстовым элементам. Здесь же размещаются знаки пунктуации и математические знаки: 2lh - !, 26h - &, 28h - (, 2Bh -+,..., большие и малые латинские буквы: 41h - A, 61h – а.

Вторая половина таблицы содержит национальные шрифты, символы псевдографики, из которых могут быть построены таблицы, специальные математические знаки. Нижнюю часть таблицы кодировок можно заменять, используя соответствующие драйверы - управляющие вспомогательные программы. Этот прием позволяет применять несколько шрифтов и их гарнитур.

Дисплей по каждому коду символа должен вывести на экран изображение символа – не просто цифровой код, а соответствующую ему картинку, так как каждый символ имеет свою форму. Описание формы каждого символа хранится в специальной памяти дисплея - знакогенераторе. Высвечивание символа на экране дисплея IBМ PC, например, осуществляется с помощью точек, образующих символьную матрицу. Каждый пиксел в такой матрице является элементом изображения и может быть ярким или темным. Темная точка кодируется цифрой 0, светлая (яркая)- 1. Если изображать в матричном поле знака темные пикселы точкой, а светлые - звездочкой, то можно графически изобразить форму символа.

Люди в разных странах используют символы для записи слов их родных зыков. В наши дни большинство приложений, включая системы электронной почты и вэб-браузеры, являются чисто 8-битными, то есть они могут показывать и корректно воспринимать лишь 8-битные символы, согласно стандарту ISO-8859-1.

Существует более 256 символов в мире (если учесть кириллицу, арабский, китайский, японский, корейский и тайский языки), а также появляются все новые и новые символы. И это создает следующие пробелы для многих пользователей:

Невозможно использовать символы различных наборов кодировок в одном и том же документе. Так как каждый текстовый документ использует свой собственный набор кодировок, то возникают большие трудности с автоматическим распознаванием текста.

Появляются новые символы (например: Евро), вследствие чего ISO разрабатывает новый стандарт ISO-8859-15, который весьма схож со стандартом ISO-8859-1. Разница состоит в следующем: из таблицы кодировки старого стандарта ISO-8859-1 были убраны символы обозначения старых валют, которые не используются в настоящее время, для того, чтобы освободить место под вновь появившиеся символы (такие, как Евро). В результате у пользователей на дисках могут лежать одни и те же документы, но в разных кодировках. Решением этих проблем является принятие единого международного набора кодировок, который называется универсальным кодированием или Unicode.

КОДИРОВАНИЕ ТЕКСТОВОЙ ИНФОРМАЦИИ. КОДИРОВКА ASCII. ОСНОВНЫЕ ИСПОЛЬЗУЕМЫЕ КОДИРОВКИ КИРИЛЛИЦЫ

Любой текст - это последовательность символов некоторого алфавита. Если каждый символ используемого алфавита закодировать числом, то текст будет представлен в виде последовательности цифр. При обработке текста компьютером используется двоичное представление чисел.

Для правильной интерпретации закодированного текста необходимо знать, где заканчивается двоичный код одного символа исходного алфавита и начинается двоичный код другого. Можно кодировать каждый символ последовательностью из 8 бит – одним байтом.

В восьми разрядах можно записать 28 = 256 различных целых двоичных чисел - от 000000002 до 111111112 . Этого достаточно для того, чтобы каждой прописной и строчной букве английского и русского алфавитов, всем арабским цифрам, знакам препинания, некоторым другим необходимым символам, а также служебным кодам для передачи данных поставить в соответствие уникальное (неповторяющееся) восьмибитовое обозначение.

Для удобства цифрового кодирования и последующего декодирования составляют кодовые таблицы. На разных типах компьютеров с различными операционными системами используются разные кодовые таблицы. Одним из стандартов кодирования символов компьютерной клавиатуры 8-битовыми числами является кодовая таблица ASCII (American Standard Code for Information Interchange - американский стандартный код обмена информацией). Первая ее половина (коды 0-127), содержащая знаки препинания, арабские цифры и символы английского алфавита, является по соглашению общепринятой во всем мире. Коды 128 - 255 таблицы ASCII (расширенные ASCII - коды) используются в основном для национальных алфавитов.

Вы можете воспроизвести кодовую таблицу, набирая нужное число от 0 до 255 на малой цифровой клавиатуре при нажатой клавише Alt На рисунке 1 приведена полученная таким способом кодовая таблица.

♫ ☼ ◄ ↕

← ∟ ↔

М Н О П Р С Т У Ф

Ц Ч Ш Щ Ъ Ы Ь Э Ю Я

Рисунок 1 – Кодовая таблица

Код формируется из номера строки и номера столбца. Например, коду 50 соответствует цифра 2, коду 134 – буква Ж. Коды от 0 до 32 – служебные.

Наличие множества вариантов кодовых таблиц, ориентированных на использование алфавитов различных национальных языков, само по себе является большим неудобством. Для упорядочивания таблицам стали присваивать особые названия, номера (например,

КОИ-8), но это не решило проблемы создания единой системы кодов, объединяющей различные национальные алфавиты.

Устранение этих неудобств и ограничений стало возможным благодаря новому международному стандарту Unicode, поддерживаемому последними версиями операционной системы Microsoft Windows. В настоящее время этот стандарт кодирования символов на каждый символ отводит два байта. Такая кодировка позволяет в двоичном алфавите представить 216 = 65 536 различных символов. Коды первых 128 символов совпадают с ASCII.

ИНФОРМАЦИОННЫЙ ОБЪЕМ СООБЩЕНИЙ

ЗАДАЧИ С РЕШЕНИЯМИ

Задача. Положим, что каждый символ кодируется 1 байтом (КОИ-8). Оценить информационный объем сообщения

Я з н а ю п р а в и л а с л о ж е н и я д в о и ч н ы х ч и с е л.

Сообщение содержит 39 символов, следовательно, для его кодирования необходимо 1 байт/символ *39 символов = 39 байт,

или 8 бит/байт * 39 байт = 312 бит.

1 . В сообщении предыдущего примера слово «двоичных» заменили словом «десятичных». Как изменился информационный объем сообщения в битах и в байтах?

Ответ: информационный объем сообщения увеличился на 2 байта, на 16 бит.

2 . Положим, что каждый символ кодируется 1 байтом (КОИ-8). Оценить информационный объем сообщения

Я у м е ю о ц е н и в а т ь и н ф о р м а ц и о н н ы й о б ъ е м с о о б щ е н и я.

Ответ: информационный объем сообщения составляет 48 байт.

3 . Положим, что каждый символ кодируется 2 байтами (Unicode). Оценить информационный объем сообщения

Я з н а ю, ч т о т а к о е к о д и р о в к а К О И - 8 .

Ответ: информационный объем сообщения составляет 68 байт.

4 . Положим, что каждый символ кодируется 2 байтами (Unicode). Оценить информационный объем сообщения

А л г о р и т м м о ж н о з а п и с а т ь н а е с т е с т в е н н о м я з ы к е.

Ответ: информационный объем сообщения составляет 92 байта.

5 . Произведена перекодировка информационного сообщения на русском языке, первоначально записанного в 16-битном коде Unicode, в 8-битную кодировку КОИ-8. При этом информационное сообщение уменьшилось на 480 бит. Какова длина сообщения в символах?

Ответ: длина сообщения составляет 60 символов.

6 . Произведена перекодировка информационного сообщения на русском языке, первоначально записанного в 8-битном коде КОИ-8, в 16-битную кодировку Unicode. При этом объем информационного сообщения увеличился на 568 бит. Какова длина сообщения в символах?

Ответ: длина сообщения составляет 71 символ.

7 . Произведена перекодировка информационного сообщения на русском языке, первоначально записанного в 8-битном коде КОИ-8, в 16-битную кодировку Unicode. Как изменился объем информационного сообщения?

Ответ: объем информационного сообщения увеличился в 2 раза.

8 . Какое количество символов содержит сообщение, информационный объем которого в кодировке Unicode составляет 200 бит?

Ответ: сообщение содержит 25 символов.

9 . Какое количество символов содержит сообщение, информационный объем которого в кодировке КОИ-8 составляет 240 бит?

Ответ: сообщение содержит 30 символов.


КОДИРОВАНИЕ И ДЕКОДИРОВАНИЕ ИНФОРМАЦИИ

ЗАДАЧИ С РЕШЕНИЯМИ

1. Для кодирования букв А, Б, В, Г используют четырехразрядные двоичные коды от 1000 до 1011 соответственно. Для последовательности символов Б, Г, В, А записать двоичный код, представить результат кодирования в восьмеричном коде.

Коды символов представлены в таблице 1: Таблица 1

Соответствующий двоичный код содержит 16 разрядов: 1001101110101000, это число для преобразования в восьмеричный код удобнее записать с разбивкой на триады: 1 001 101 110 101 000. Ясно, что соответствующее восьмеричное число имеет следующий вид: 115650.

Чтобы преобразовать число, представленное в двоичном коде, в шестнадцатеричное, удобно разбить двоичную запись на тетрады (группы по 4 цифры), начиная справа.

2. Для 5 букв русского алфавита заданы их двоичные коды, которые могут содержать по 2 или по 3 разряда. Коды записаны в таблице 3:

1) 110100000100110111

2) 101010000010010011

3) 110100001001100111

4) 110110000100110010.

Проведем последовательно декодирование каждого из четырех сообщений, разбивая на группы разрядов в соответствии с таблицей 3:

1) 11 01 000 001 001 10 111 Последней группе разрядов не может быть сопоставлен символ

по данным таблицы 3. Сообщение содержит ошибку.

2) 10 10 10 000 01 001 001 1 Сообщение содержит ошибку.

3) 11 01 000 01 001 10 01 11

Сообщение может быть декодировано. 4) 11 01 10 000 10 01 10 010 Сообщение содержит ошибку.

Ответ: 3) 110100001001100111

ЗАДАЧИ ДЛЯ САМОСТОЯТЕЛЬНОГО РЕШЕНИЯ

1. Для кодирования букв M, N, P, Q используют четырехразрядные двоичные коды от 1000 до 1011 соответственно. Для последовательности символов N, Q, P, M записать двоичный код, представить результат кодирования в восьмеричном коде.

Ответ: двоичный код 1 001 101 110 101 000, восьмеричный код 115650.

2. Для кодирования букв А, Б, В, Г используют четырехразрядные двоичные коды от 1000 до 1011 соответственно. Для последовательности символов Б, Г, В, А записать двоичный код, представить результат кодирования в шестнадцатеричном коде.

Ответ: двоичный код 1001 1011 1010 1000, шестнадцатеричный код 9ВА9.

3. Для кодирования букв M, N, O, P используют трехразрядные двоичные коды от 000 до 111 соответственно. Для последовательности символов O, N, M, P записать двоичный код, представить результат кодирования в восьмеричном коде.

Ответ: двоичный код 110 101 100 111, восьмеричный код 6547.

4. Для кодирования букв M, N, O, P используют трехразрядные двоичные коды от 100 до 111 соответственно. Для последовательности символов O, N, M, P записать двоичный код, представить результат кодирования в шестнадцатеричном коде.

Ответ: двоичный код 1101 0110 0111, шестнадцатеричный код В67.

второй цифрой не может быть цифра 3.

6. Для составления четырехзначных чисел используют цифры 1, 2, 3, 4, 5, при этом требуется выполнять следующие правила:

на первом месте может стоять одна из цифр 1, 3, 4;

в записи числа четные и нечетные цифры чередуются;

третьей цифрой не может быть цифра 4.

Записать все возможные числа, составленные по этим правилам.

7. Для составления четырехзначных чисел используют цифры 1, 2, 3, 4, 5, при этом требуется выполнять следующие правила:

на первом месте может стоять одна из цифр 2, 4, 5;

в записи числа четные и нечетные цифры чередуются;

вторая и последняя цифры не могут быть одинаковыми. Записать все возможные числа, составленные по этим правилам

8. Для 5 букв русского алфавита заданы их двоичные коды, которые могут содержать по 2 или по 3 разряда. Коды записаны в таблице:


Из четырех сообщений в этой кодировке прошло без ошибок только одно, только оно может быть корректно декодировано. Найти это сообщение из списка:

1) 110100000100110011

2) 111010000010010011

3) 110100001001100111

4) 110110000100110010. Ответ: 110100001001100111

9. Для 5 букв русского алфавита заданы их двоичные коды, которые могут содержать по 2 или по 3 разряда. Коды записаны в таблице:

Закодируйте последовательность ДРАКА, внесите в код такую ошибку, которая не позволит корректно декодировать сообщение.

ТРЕНИРОВОЧНЫЙ ТЕСТ

2 Положим, что каждый символ кодируется 1 1) 384 бита байтом (КОИ-8). Оценить информационный 2) 192 бита

объем слова из 24 символов в этой

кодировке.

3 Произведена

перекодировка

информационного сообщения

языке, первоначально записанного в 8-

битном коде КОИ-8, в 16-битную кодировку

Unicode. При этом объем информационного

сообщения увеличился на 336 бит. Какова

длина сообщения в символах?

4 Какое количество символов содержит

сообщение,

информационный

которого в кодировке КОИ-8 составляет 240

5 Какое количество символов содержит

сообщение,

информационный

которого в кодировке Unicode составляет

6 Для кодирования букв А, Б, В, Г

используют трехразрядные двоичные коды

Правильный

При формировании ASCII в начало кодировки были включены управляющие символы, присущие телетайпам и пишущим машинкам, а со временем они там намертво присохли, хотя в 21-м веке практически не используются.

Привожу подробную информацию о кодировке ASCII:

ASCII (англ. A merican s tandard c ode for i nformation i nterchange, [ˈæs.ki]) - название таблицы (кодировки, набора), в которой некоторым распространённым печатным и непечатным символам сопоставлены числовые коды. Таблица была разработана и стандартизована в США в 1963 году. Название «ASCII» по-русски часто произносится как [аск(и)и́ ].

Таблица ASCII определяет коды для символов:

  • десятичных цифр;
  • латинского алфавита;
  • национального алфавита;
  • знаков препинания;
  • управляющих символов.

История

Изначально (1963 год) ASCII была разработана для кодирования символов, коды которых помещались в 7 бит (128 символов; 27=128), при этом старший 7-й бит (нумерация с нуля) использовался для контроля ошибок, возникших при передаче данных.

Со временем кодировка была расширена до 256 символов (28=256); коды первых 128 символов не изменились. ASCII стала восприниматься как половина 8-битной кодировки, а «расширенной ASCII» называли ASCII с задействованным 8-м битом (например, КОИ-8).

Наложение символов

С помощью символа Backspace (BS) (возврат на один символ) на принтере можно печатать один символ поверх другого. В ASCII таким же способом можно добавить к буквам диакритические знаки, например:

  • a BS ‘ → á
  • a BS ` → à
  • a BS ^ → â
  • o BS / → ø
  • c BS , → ç
  • n BS ~ → ñ

Примечание : в старых шрифтах апостроф «’» рисовался с наклоном влево (сравните «`» и «´»), а тильда «~» была сдвинута вверх (сравните «~» и «˜»), так что они как раз подходили на роль символов акут «´» и «тильда сверху».

Если в одной позиции дважды напечатать один и тот же символ, получится жирный символ. Если в одной позиции напечатать символ, а затем - подчёркивание «_», получится подчёркнутый символ.

  • a BS a → a
  • a BS _ → a

Эта техника до сих пор используется, например, в справочной системе man .

Национальные варианты ASCII

Стандарт ISO 646 (ECMA-6) предусматривает возможность размещения в ASCII национальных символов. Для этого предлагается заменять символы «@», «[», «\», «]», «^», «`», «{», «Вертикальная черта», «}», «~». Также на месте знака решётки «#» может быть размещён символ фунта «£», а на месте символа доллара «$» - знак валюты «¤». Такая система хорошо подходит для европейских языков, так как в них используются символы латинского алфавита и лишь несколько дополнительных символов. Вариант ASCII, не содержащий национальных символов, называется «US-ASCII» или «international reference version».

Для некоторых языков с нелатинской письменностью (русского, греческого, арабского, иврита) существовали более радикальные модификации ASCII. В одной из таких модификаций на месте строчных латинских букв размещались национальные символы (для русского и греческого - заглавные буквы). В другой модификации предусматривалось переключение между US-ASCII и национальным вариантом; переключение осуществлялось «на лету» - с помощью символов SO (англ. s hift o ut ) и SI (англ. s hift i n ); в этом случае в национальном варианте можно было полностью заменить латинские буквы на национальные символы. См. также: КОИ-7.

Впоследствии оказалось удобнее использовать 8-битовые кодировки (кодовые страницы), в которых нижнюю половину кодовой таблицы (0‑127) занимают символы US-ASCII, а верхнюю (128‑255) - дополнительные символы, включая набор национальных символов.

Таким образом, верхняя половина таблицы ASCII до повсеместного внедрения Юникода активно использовалась для представления локализированных символов, букв местного языка.

Отсутствие единого стандарта размещения кириллических символов в таблице ASCII доставляло множество проблем с кодировками (КОИ-8, Windows-1251 и др.). Другие языки с нелатинской письменностью тоже страдали из-за наличия нескольких разных кодировок.

Первые 128 символов стандарта Юникод совпадают с соответствующими символами US-ASCII.

Таблица ASCII

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F
0. NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO SI
1. DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US
2. ! « # $ % & ( ) * + , - . /
3. 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4. @ A B C D E F G H I J K L M N O
5. P Q R S T U V W X Y Z [ \ ] ^ _
6. ` a b c d e f g h i j k l m n o
7. p q r s t u v w x y z { | } ~ DEL

В первой версии стандарта ASCII (1963 год) в позициях 0x5e (94) и 0x5f (95) располагались символы «стрелка вверх» и «стрелка влево» соответственно. Стандарт ECMA-6 (1965 год) заменил их на знак вставки (который также используется в роли символа циркумфлекс «^») и символ подчёркивание «_» соответственно.

Управляющие символы

Таблица ASCII создавалась для обмена информацией по телетайпу. В набор были включены непечатаемые символы, используемые как команды для управления устройством телетайп. Аналогичные команды применялись и в других докомпьютерных средствах обмена сообщениями (азбука Морзе, семафорная азбука), учитывали специфику устройства.

  • NUL , 00 - null, пустой. Символ null всегда игнорировался. На перфолентах цифра «1» обозначалась отверстием, а цифра «0» - отсутствием отверстия. Участки перфоленты, на которых не была записана информация, не содержали отверстий, то есть содержали символы null ; такие участки располагались в начале и в конце ленты. Символ null по сей день используется во многих языках программирования, как признак конца строки, и обозначается «\0». (Термин «строка» обозначает последовательность символов.) В некоторых операционных системах null - последний символ любого текстового файла.

Сообщения, передаваемые по каналу связи, делились на две части:

  • «заголовок»;
  • «текст».

«Заголовок» содержал адреса отправителя и получателя, контрольную сумму и т. п. , мог размещаться до «текста» или после. Термином «текст» называлась часть сообщения, предназначенная для печати.

  • SOH , 01 - s tart o f h eading, начало «заголовка».
  • STX , 02 - s tart of t ex t, начало «текста». Символ использовался как команда для включения печатающего устройства телетайпа. Текст для печати располагался между символами STX и ETX .
  • ETX , 03 - e nd of t ex t, конец «текста». Символ использовался для выключения печатающего устройства телетайпа. В наши дни код 03 используется для отправки процессу сигнала SIGINT (англ. sig nal int errupt ) и может быть послан нажатием комбинации клавиш Ctrl + C . Получив такой сигнал, процесс должен завершить работу.
  • EOT , 04 - e nd o f t ransmission, конец передачи. Символ используется эмуляторами терминалов в значении «конец файла» (EOF, англ. e nd o f f ile ) и может быть послан нажатием комбинации клавиш Ctrl + D . Получив такой символ, эмулятор терминала определит процесс, в данный момент работающий с терминалом, и установит флаг «конец файла» (EOF) для стандартного потока ввода (stdin, англ. st andard in put stream ) этого процесса. В результате процесс прекратит чтение stdin и приступит к обработке прочитанных данных.
  • ENQ , 05 - enq uire. «Прошу подтверждения».
  • ACK , 06 - ack nowledgement. «Подтверждаю». Символ NAK означает обратное - «не подтверждаю».
  • BEL , 07 - bel l, звонок, звуковой сигнал. Символ часто обозначается как «\a» и используется для подачи звукового сигнала. В современном ПК звук воспроизводит встроенный динамик. Например, следующие команды могут воспроизвести звук: echo -e «\a» или echo -e «\007″ (bash); echo ^G (cmd.exe ; для ввода ^G нажмите Ctrl + G), printf(«\a»); (код на языке программирования C).
  • BS , 08 - b acks pace, возврат на один символ. Клавиша ← Backspace служит для стирания предыдущего символа.
  • TAB , 09 - t ab, горизонтальная табуляция. Обозначается как «\t». Иногда называется HT от англ. h orizontal t abulation .
  • LF , 0A - l ine f eed, перевод строки. Команда для опускания каретки печатающего устройства на одну строку вниз. Символ используется для обозначения конца строки текстового файла в ОСUNIX. Последовательность символов CR LF обозначает конец строки текстового файла в ОС Windows. Символ во многих языках программирования обозначается как «\n». Нажатие на клавишу ↵ Enter при выводе текста приводит к переводу строки.
  • VT , 0B - v ertical t ab, вертикальная табуляция.
  • FF , 0C - f orm f eed, прогон страницы, новая страница. Команда для принтера: продолжить печать с начала следующего листа.
  • CR , 0D - c arriage r eturn, возврат каретки. Команда для принтера: продолжить печать с начала текущей строки (не с новой строки). Во многих языках программирования символ CR обозначается как «\r». В ОС Mac OS символ CR обозначает конец строки текстового файла. С клавиатуры символ CR может быть введёт нажатием комбинации клавиш Ctrl + M .
  • SO , 0E - s hift o ut, переключиться на другую ленту. Другая лента обычно была окрашена в красный цвет. В дальнейшем символ использовался для переключения на национальную кодировку.
  • SI , 0F - s hift i n. Команда для выполнения действия, обратного действию SO: переключиться на исходную ленту или переключиться на исходную кодировку.
  • DLE , 10 - d ata l ink e scape, освобождение канала данных. Любые символы, следующие после DLE , должны восприниматься как данные, а не как управляющие символы.
  • DC1 , 11 - d evice c ontrol 1 , 1-й символ управления устройством. Команда: включить устройство чтения перфоленты.
  • DC2 , 12 - d evice c ontrol 2 , 2-й символ управления устройством. Команда: включить перфоратор.
  • DC3 , 13 - d evice c ontrol 3 , 3-й символ управления устройством. Команда: выключить устройство чтения перфоленты.
  • DC4 , 14 - d evice c ontrol 4 , 4-й символ управления устройством. Команда: выключить перфоратор.
  • NAK , 15 - n egative a ck nowledgment, не подтверждаю. Обратно символу ACK .
  • SYN , 16 - syn chronization. Этот символ передавался, когда для синхронизации было необходимо что-нибудь передать.
  • ETB , 17 - e nd of t ext b lock, конец текстового блока. Иногда текст по техническим причинам разбивался на блоки.
  • CAN , 18 - can cel, отмена (того, что было передано ранее).
  • EM , 19 - e nd of m edium, конец носителя (кончилась перфолента, бумага и т. п. )
  • SUB , 1A - sub stitute, подставить. Символ ставится на месте символа, значение которого было потеряно или испорчено при передаче. Или символ ставится перед символом, для интерпретации которого нужно переключиться на дополнительный набор символов. Или символ ставится перед символом, печатать который нужно другим цветом. В настоящее время символ вставляется нажатием комбинации клавиш Ctrl + Z и используется для обозначения конца файла в ОС DOS и Windows.
  • ESC , 1B - esc ape. Символ, следующий после символа ESC , имеет какое-то другое значение, отличное от того, которое определено в ASCII. Обычно после символа ESC следуют управляющие последовательности. В DOS они реализуются драйвером ANSI.SYS

Поддерживалось разделение данных на 4 уровня:

  • сообщение могло состоять из файлов;
  • файлы могли состоять из групп;
  • группы могли состоять из записей;
  • записи могли состоять из юнитов.
  • FS , 1C - f ile s eparator, разделитель файлов.
  • GS , 1D - g roup s eparator, разделитель групп.
  • RS , 1E - r ecord s eparator, разделитель записей.
  • US , 1F - u nit s eparator, разделитель юнитов.
  • DEL , 7F - del ete, стереть последний символ. Символом DEL , состоящим в двоичном коде из всех единиц, можно было «забить» любой символ. Устройства и программы игнорировали DEL так же, как и NUL . Код этого символа происходит из первых текстовых процессоров с памятью на перфоленте: в них удаление символа происходило «забиванием» его кода дырочками (обозначавшими логические единицы).

Структурные свойства таблицы

  • Коды символов цифр «0»-«9» в двоичной системе счисления начинаются с 00112, а заканчиваются двоичными значениями чисел. Например, 01012 - число 5, а 0011 01012 - символ «5». Зная об этом, можно преобразовать двоично-десятичные числа (BCD) в ASCII-строку с помощью простого добавления слева 00112 к каждому двоично-десятичному полубайту.
  • Буквы «A»-«Z» верхнего и нижнего регистров различаются в своём представлении только одним битом, что упрощает преобразование регистра и проверку на принадлежность кода к диапазону значений. Буквы представляются своими порядковыми номерами в алфавите, записанными пятью цифрами в двоичной системе счисления, перед которыми стоит 0102 (для букв верхнего регистра) или 0112 (для букв нижнего регистра).

Представление ASCII в ЭВМ

На подавляющем большинстве современных компьютеров минимально адресуемая единица памяти - байт размером в 8 бит. Поэтому там используются 8-битные, а не 7-битные символы. Обычно символ ASCII расширяют до 8 бит, просто добавляя один нулевой бит в качестве старшего.

Коды ASCII используются в программировании как промежуточные кросс-платформенные коды нажатых клавиш (в противовес скан-кодам IBM PC и прочим внутренним кодам).

Для раскладки клавиатуры QWERTY таблица кодов выглядит так, как показано в следующей таблице:

Escape F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12 Print Screen Scroll Lock Pause
1 2 3 4 5 6 7 8 9 0 - =+ Back Space Insert Home Page Up Num Lock / доп. * доп. + доп.
Tab Q W E R T Y U I O P [ ] Delete End Page Down 7 доп. 8 доп. 9 доп.
Caps Lock A S D F G H J K L ‘э Enter 4 доп. 5 доп. 6 доп. Enter доп.
Shift Z X C V B N M ,< .> / Shift \| Up 1 доп. 2 доп. 3 доп.
Ctrl win Alt Space Bar Alt win list Ctrl Left Down Right Ins/0 Del/.

46/110

На этой раскладке клавиатуры отсутствуют русские буквы, а также есть кое-какие неточности, но основные особенности отражены.

Приглашаю всех высказываться в


Top