Числовое кодирование

 

Как представляется информация

Издавна люди пользовались шифрами. Самыми простыми и удобными являются цифровые шифры.

Для обработки компьютером любая информация представляется в виде чисел, записанных с помощью цифр. Цифры представляются электрическими сигналами, с которыми работает компьютер. Для удобства различения в компьютере используются сигналы двух уровней. Один из них соответствует цифре 1, другой — цифре 0. Цифры 0 и 1 называются двоичными. Они являются символами, из которых состоит язык, понимаемый и используемый компьютером. Информация, с которой работает компьютер, «кодируется» с помощью этого языка. Таким образом, любая информация в компьютере представляется с помощью двоичных цифр. Наименьшим количеством информации является одно из двух возможных значений — 0 или 1. Такое количество информации называется бит (bit сокр. от англ. binary digit — двоичная цифра).

Бит является наименьшей единицей измерения количества информации в компьютере.

Десятичная система счисления

Система счисления — это система записи чисел с помощью определенного набора цифр. В привычной нам системе записи чисел — десятичной системе счисления — для записи чисел используется десять цифр: 0,1,2,3,4,5,6,7,8,9. В этой системе любое целое неотрицательное число представляется с помощью степеней числа 10 (10^0=1; 10^1=10; 10^2=100; 10^3=1000; 10^4=10000,...). Число 10 является основанием этой системы счисления.

Действительно, если число меньше 10, то записывается соответствующая ему одна цифра.

Если число больше либо равно 10, но меньше 100, то оно представляется двумя цифрами: первая указывает количество полных десятков, содержащихся в числе, вторая — количество единиц в последнем неполном десятке.

Индекс внизу указывает систему счисления, в которой записано исходное число. Если число больше либо равно 100, но меньше 1000, то для его записи используется уже три цифры. Первая цифра — это количество полных сотен, содержащихся в числе, вторая цифра — количество полных десятков в последней неполной сотне, третья цифра — количество единиц в последнем неполном десятке.

При таком подходе для представления числа, большего либо равного 1000, но меньшего 10000, требуется уже четыре цифры. Первая цифра — количество полных тысяч, вторая — количество полных сотен, третья — количество полных десятков и четвертая — количество единиц.

Количество цифр, используемых для десятичного представления числа, на единицу больше, чем показатель наибольшей степени 10, содержащейся в числе. Это связано с тем, что в представлении участвует нулевая степень числа 10.

Таким образом, любое целое неотрицательное число в десятичной системе счисления представляется в виде:

где каждый из коэффициентов an, an-1,•••, a1, a0 является одной из цифр от 0 до 9, называемых десятичными цифрами, причем an не равно 0.

Общее количество цифр в десятичной записи числа равно количеству коэффициентов в представлении (1), т.е. n+1, где п — показатель наибольшей степени числа 10, содержащейся в исходном числе.

Например:

Коэффициенты в представлении (1) должны принимать значения от 0 до 9, причет коэффициент аn не должен быть равен нулю (ноль не может быть первой цифрой числа).

Двоичная система счисления

Двоичная система счисления — это система, в которой для записи чисел используются две цифры 0 и 1. Основанием двоичной системы счисления является число 2. Для получения записи числа в двоичной системе используется представление этого числа с помощью степеней числа 2.

Рассмотрим на примерах, как представляются числа с помощью степеней числа 2. Предварительно приведем таблицу значений степеней числа 2.

n 0 1 2 3 4 5 6 7 8 9 10
2^n 1 2 4 8 16 32 64 128 256 512 1024

Используя эту таблицу, можно записать:

В общем виде представление целого неотрицательного числа с помощью степеней двойки записывается так же, как и представление (1) с заменой числа 10 на число 2:

Здесь каждый из коэффициентов аn, an-1 ,•••,a1, a0 является одной из двух двоичных цифр 0 или 1, причем an=1.

Запись числа в двоичной системе строится так же, как и в десятичной: первой записывается цифра ап, второй — цифра ап-1 и т.д.,

последней — цифра а0.

Двоичный код числа — запись этого числа в двоичной системе счисления.

Таким образом, двоичным кодом числа является последовательность коэффициентов ап an-1 ••• a1 a0 из представления (2).

Коэффициенты в представлении (2) должны принимать только одно из двух значений: 0 или 1. Это обеспечивает однозначность такого представления.

Если какой-либо из коэффициентов больше 1, то происходит переход к следующей степени числа 2.

Например:

Старший коэффициент аn всегда равен 1, т.е. двоичный код всегда начинается с 1. Чтобы лучше понимать, как получается двоичный код некоторого числа, представим себе последовательность разрядов, каждый из которых может содержать только одну из двоичных цифр 0 или 1, т.е. один бит информации. В дальнейшем под битом и разрядом будем понимать одно и то же.

Посмотрим, как получается двоичное представление, например, числа 25. Число 25 представляется в виде суммы чисел из этой строки: 25=16+8+1. Каждое число берется только один раз — это обеспечивает однозначность двоичного кода. Затем выбранные числа заменяются равными им степенями двойки из верхней строчки таблицы: 16=24, 8=23, 1=20; 25=24+23+20. И, наконец, разряды, номера которых равны числам, выбранным из первой строчки таблицы заполняются единицами, а остальные — нулями.

Сколько чисел можно записать с помощью n битов

Уже описано, как получать двоичный код любого десятичного числа, т.е. переводить его из десятичной системы в двоичную. Рассмотрим теперь обратное действие: перевод числа из двоичной системы счисления в десятичную.

Итак, требуется найти десятичное число по известному двоичному коду этого числа. Воспользуемся представлением вида (2). Коэффициенты аn, an-l ,•••,a1, a0 известны. Значит, нужно вычислить значение выражения (2). Рассмотрим примеры. Пусть задан двоичный код 11012. Самый левый — старший бит — имеет номер 3. Следовательно, первое слагаемое равно 1•23. Следующий бит имеет

номер 2. Второе слагаемое равно 1•22. Третье слагаемое равно 0•21 четвертое слагаемое равно 1•20. Искомое число есть сумма четырех слагаемых: 1•23+1•22+0•21+1•20=8+4+1=13. Таким образом, 11012=13.

В десятичной системе следующее число получается из предыдущего путем прибавления единицы к количеству единиц предыдущего числа.

То же самое происходит при получении двоичного кода следующего числа из двоичного кода предыдущего: к младшему разряду двоичного кода предыдущего числа прибавляется единица.

Правило выполнения операции сложения одинаково для всех систем счисления: если сумма складываемых цифр больше или равна основанию системы счисления, происходит перенос единицы в следующий слева разряд. Таким образом, правила сложения в двоичной системе таковы:

Наибольшее десятичное число, использующее для записи своего двоичного кода три бита, получается, когда значения всех трех битов равны единице.

Понятно, что наибольшее число, использующее для своей двоичной записи а битов, равно 2n -1. Следующее за ним число 2n требует для своей записи n+1 бит. Таким образом, используя п битов, можно записывать двоичные коды чисел от 0 до 2n -1, всего 2n чисел.

Как измеряется количество информации в компьютере

В информатике принято рассматривать последовательности битов длиной 8. Такая последовательность называется байтом и является следующей за битом единицей измерения количества информации в компьютере.

С помощью одного байта можно записывать двоичные коды 28 = 256 чисел от 0 до 255. Байты объединяются в последовательности длиной 1024 (=210). Такая последовательность называется килобайтом (Кбайт).

Последовательность из 1024 Кбайтов называется мегабайтом (Мбайт), из 1024 Мбайтов — гигабайтом (Гбайт), из 1024 Гбайтов — терабайтом (Тбайт).

Бит, байт, килобайт, мегабайт — основные единицы измерения количества информации в компьютере.

Итак, с помощью двоичных кодов цифры и их последовательности (числа) становятся понятными компьютеру. Процесс преобразования информации представляется в виде схемы:

Информация------------->Числа---------------->Двоичные коды.

Память компьютера содержит информацию только в двоичном виде (в виде 0 и 1), и ЦП выполняет действия только с данными, представленными в двоичной системе.

Шестнадцатеричная система счисления

Шестнадцатеричная система счисления — это система счисления, в которой основанием является число 16. Любое целое положительное число представляется в этой системе с помощью степеней числа 16 в виде:

Шестнадцатеричной записью целого положительного числа является последовательность коэффициентов ап an-1 ... al a0 из представления (3).

Например:

Для того чтобы представление числа в шестнадцатеричной системе было однозначным, значения коэффициентов при степенях числа шестнадцать должны быть целыми числами от 0 до 15. Если значение коэффициента взять равным 16, то умножение какой-то степени числа 16 на этот коэффициент дает следующую степень числа 16: 16•16n=1•16n+1; 25•16n=(16+9) •16n=1•16n+1+9•16n.

В качестве коэффициентов для записи чисел в шестнадцатеричной системе берутся шестнадцать символов: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, А, В, С, D, Е, F. Они называются шестнадцатеричными цифрами.

Введение шестнадцатеричных цифр А, В, С, D, Е, F является необходимым, т.к. при использовании в качестве коэффициентов в записи шестнадцатеричных чисел 10, 11,...15 появляется неоднозначность в их прочтении.

Применение шестнадцатеричной системы счисления в информатике удобно в связи с тем, что содержимое одного байта можно записать двумя шестнадцатеричными цифрами. Действительно, для записи любой шестнадцатеричной цифры достаточно четырех битов. Максимальная шестнадцатеричная цифра F=1510 имеет двоичный код 1111. Один байт - это 8 битов, которые можно разделить на две части: четыре младших бита с номерами от 0 до 3 и четыре старших бита с номерами от 4 до 7.

Кодировка символов

Компьютеры могут обрабатывать только информацию, представленную в числовой форме. При вводе документов, текстов программ и т.д. вводимые символы кодируются определёнными числами, а при выводе их для чтения человеком (на монитор, принтер и т.д.) по каждому числу (коду символа) строится изображение символа. Соответствие между набором символов и их кодами называется кодировкой символов.

Как правило, код символа хранится в одном байте, поэтому коды символов могут принимать значения от 0 до 255. Такие кодировки называются однобайтными, они позволяют использовать до 256 различных символов. Впрочем, в настоящее время всё большее распространение приобретает двухбайтная кодировка Unicode, в ней коды символов могут принимать значения от 0 до 65535. В этой кодировке имеются номера для практически всех применяемых символов (букв алфавитов разных языков, математических, декоративных символов и т.д.).

В графической среде Windows кодовые таблицы, разработанные для IBM PC, являются во многом устаревшими.

При использовании программ для DOS и для Windows пользователь вынужден работать с двумя различными кодировками символов: одна используется в DOS-программах, другая — в Windows-программах. В терминологии Windows первая кодировка называется OEM-кодировкой, вторая — ANSI-кодировкой. Windows содержит стандартные функции для перекодировки из OEM в ANSI и обратно. Многие Windows-программы (редакторы текстов, табличные процессоры и т.д.) при экспорте и импорте файлов в формате программ для DOS автоматически выполняют преобразование из OEM в ANSI и обратно.

Вывод

Компьютер может обрабатывать только информацию, представленную в числовой форме. Вся другая информация (звуки, изображения и т.д.) для обработки должна быть преобразована в числовую форму. Для обработки на компьютере текстовой информации обычно при вводе в компьютер каждая буква кодируется определённым числом, а при выводе на внешние устройства для восприятия человеком по этим числам строятся соответствующие изображения букв.

 

Список использованных источников

  1. И.Т. Зарецкая, Б.Г. Колодяжный. Информатика. Киев: Форум, 2001.—496 с.
  2. В.Э. Фигурнов. IBM PC для пользователя. Москва: ИНФРА-М, 1999.—480 с.
  3. http://www.mgopu.ru
  4. http://sdo.uspi.ru

Рейтинг@Mail.ru



Hosted by uCoz