Лекция
Тема: «Кодирование информации. Измерение информации»
План
1. Основные понятия
2. Кодовые системы
3. Измерение информации
4. Распознавание информации компьютером
5. Кодирование информации
1.
Основные
понятия
Зачем кодируется
информация? Есть несколько вариантов ответа на этот вопрос:
1. Скрыть ее от
других (зеркальная тайнопись Леонардо да Винчи, военные шифровки).
2. Записать
информацию короче (стенография, аббревиатура, дорожные знаки).
3. Для более
легкой обработки и передачи (азбука Морзе, перевод в электрические сигналы - машинные
коды).
Код - набор условных обозначений для представления информации.
Кодирование - процесс представления информации в виде кода.
Декодирование — это процесс восстановления содержания закодированного сообщения.
В некоторых случаях возникает потребность засекречивания текста сообщения или документа, для того чтобы его не смогли прочитать те, кому не положено. Это называется защитой от несанкционированного доступа. В таком случае секретный текст шифруется. В давние времена шифрование называлось тайнописью.
Шифрование – процесс превращения открытого текста в зашифрованный, а дешифрование — процесс обратного преобразования, при котором восстанавливается исходный текст.
Шифрование — это кодирование, но с засекреченным методом, известным только источнику и адресату.
Методами шифрования занимается наука под названием криптография.
2. Кодовые системы
С появлением технических средств хранения и передачи информации возникли новые идеи и приемы кодирования. Первым техническим средством передачи информации на расстояние стал телеграф, изобретенный в 1837 году американцем Сэмюэлем Морзе. Телеграфное сообщение — это последовательность электрических сигналов, передаваемая от одного телеграфного аппарата по проводам к другому телеграфному аппарату. Эти технические обстоятельства привели С.Морзе к идее использования всего двух видов сигналов — короткого и длинного — для кодирования сообщения, передаваемого по линиям телеграфной связи.
Такой способ кодирования получил название азбуки Морзе. В ней каждая буква алфавита кодируется последовательностью коротких сигналов (точек) и длинных сигналов (тире). Буквы отделяются друг от друга паузами — отсутствием сигналов.
Самым знаменитым телеграфным сообщением является сигнал бедствия “SOS” (Save Our Souls — спасите наши души). Вот как он выглядит в коде азбуки Морзе, применяемом к английскому алфавиту:
••• ––– •••
Три точки (буква S), три тире (буква О), три точки (буква S). Две паузы отделяют буквы друг от друга.
На рисунке показана азбука Морзе применительно к русскому алфавиту. Специальных знаков препинания не было. Их записывали словами: “тчк” — точка, “зпт” — запятая и т.п.
Рисунок 1 – Азбука Морзе
Характерной особенностью азбуки Морзе является переменная длина кода разных букв, поэтому код Морзе называют неравномерным кодом. Буквы, которые встречаются в тексте чаще, имеют более короткий код, чем редкие буквы. Например, код буквы “Е” — одна точка, а код твердого знака состоит из шести знаков. Это сделано для того, чтобы сократить длину всего сообщения. Но из-за переменной длины кода букв возникает проблема отделения букв друг от друга в тексте. Поэтому приходится для разделения использовать паузу (пропуск). Следовательно, телеграфный алфавит Морзе является троичным, т.к. в нем используется три знака: точка, тире, пропуск.
Любопытный факт связан с изобретателем первой лампочки Томасом Альвой Эдисоном (1847-1931 гг.). Он плохо слышал и общался со своей женой, Мэри Стиуэлл, с помощью азбуки Морзе. Во время ухаживания Эдисон сделал предложение, отстучав слова рукой, и она ответила тем же способом. Телеграфный код стал обычным средством общения для супругов. Даже когда они ходили в театр, Эдисон клал руку Мэри себе на колено, чтобы она могла «телеграфировать» ему диалоги актеров.
Равномерный телеграфный код был изобретен французом Жаном Морисом Бодо в конце XIX века. В нем использовалось всего два разных вида сигналов. Не важно, как их назвать: точка и тире, плюс и минус, ноль и единица. Это два отличающихся друг от друга электрических сигнала. Длина кода всех символов одинаковая и равна пяти. В таком случае не возникает проблемы отделения букв друг от друга: каждая пятерка сигналов — это знак текста. Поэтому пропуск не нужен. Код вводился прямо клавиатурой, состоящей из пяти клавиш, нажатие или ненажатие клавиши соответствовало передаче или непередаче одного бита в пятибитном коде.
Код Бодо — это первый в истории техники способ двоичного кодирования информации. Благодаря этой идее удалось создать буквопечатающий телеграфный аппарат, имеющий вид пишущей машинки. Нажатие на клавишу с определенной буквой вырабатывает соответствующий пятиимпульсный сигнал, который передается по линии связи. Принимающий аппарат под воздействием этого сигнала печатает ту же букву на бумажной ленте.

Рисунок 2 – Перфолента с сообщением, переданным с помощью кода Бодо
В современных компьютерах для кодирования текстов также применяется равномерный двоичный код.
Шрифт Брайля - рельефно-точечный тактильный шрифт, предназначенный для письма и чтения незрячими людьми. Был разработан в 1824 г. французом Луи Брайлем (Louis Braille), сыном сапожника. Луи в возрасте трёх лет потерял зрение, в результате воспаления глаз, начавшегося от того, что мальчик поранился шорным ножом (подобие шила) в мастерской отца. В возрасте 15 лет он создал свой рельефно-точечный шрифт, вдохновившись простотой «ночного шрифта» капитана артиллерии Шарля Барбье (Charles Barbier), который использовался военными того времени для чтения донесений в темноте.
Для изображения символов (в основном букв и цифр) в шрифте Брайля используются 6 точек, расположенных в два столбца, по 3 в каждом.

Рисунок 3 –
Нумерация точек в шрифте Брайля

Рисунок 4 – Надпись
«Sochi 2014» шрифтом
Брайля на золотой медали Параолимпийских игр 2014г.
Каждому символу
соответствует свой уникальный набор выпуклых точек. Т.о. шрифт Брайля представляет
собой систему для кодирования 26 = 64 символов. Но присутствие в шрифте управляющих
символов (например, переход к буквам или цифрам) позволяет увеличить количество
кодируемых символов.
Шрифт Брайля, в последнее время, стал широко применяться в общественной жизни и быту в связи с ростом внимания к людям с ограниченными возможностями.
Штрих-код производителя - это последовательность черных и белых полос, представляющая некоторую информацию в виде, удобном для считывания техническими средствами. Информация, содержащаяся в коде может быть напечатана в читаемом виде под кодом. Штриховые коды используются в торговле, складском учете, библиотечном деле, охранных системах, почтовом деле, сборочном производстве, обработка документов.
В мировой практике торговли принято использование штрихкодов символики EAN для маркировки товаров.
Пример кода символики EAN-13:

Рисунок 5 – Штрих-код
Пример вычисления контрольной цифры для определения подлинности товара
1. Сложить цифры, стоящие на четных местах: 8+0+2+7+0+1=18
2. Полученную сумму умножить на 3: 18x3=54
3. Сложить цифры, стоящие на нечетных местах, без контрольной цифры: 4+2+0+4+0+0=10
4. Сложить числа, указанные в пунктах 2 и 3: 54+10=64
5. Отбросить десятки: получим 4
6. Из 10 вычесть полученное в пункте 5: 10-4=6 Если полученная после расчета цифра не совпадает с контрольной цифрой в штрих-коде, это значит, что товар произведен незаконно.
Альтернативу штрих-кодам составляют QR-коды. Они представляют из себя изображение, на котором, как правило, всегда можно выделить три больших квадрата. Они служат ориентирами при расшифровке кода программами для его считывания — помогают определить уровень наклона и четко привязаться к масштабу.
QR же является одной из разновидностей двухмерного баркода и позволяет существенно увеличить объем заключенной в нем информации. В идеале с его помощью можно перевести в относительно небольшое изображение до двух с половиной печатных страниц текста.

Рисунок 6 – QR-код
В реальности же кодируют от нескольких десятков до сотен символов, ибо большее количество может вызвать сложности в расшифровке мобильными телефонами в неидеальных условиях. К тому же до 30 процентов информации может быть отдано на избыточность, которая позволит расшифровать QR-код даже при его частичном повреждении или в плохих условиях.
Впервые применили QR-коды японцы. Одна из их компаний разработала принципы кодирования и расшифровывания в середине девяностых годов прошлого века. Ну, а повсеместное распространение сотовых в стране восходящего солнца обеспечило большинство населения персональными сканерами баркода.
Товары, рекламные плакаты, визитки, уличные указатели и т.д. в Японии содержат QR-коды.
Мода на QR-коды потихоньку захлестывает и постсоветское пространство. Во всяком случае на сайтах или в метро-рекламе эти замысловатые картинки встречаются уже довольно часто. На визитке разместить barcode будет хорошим решением, позволяющим одним кликом добавить все ваши координаты в мобильный телефон вашего потенциального партнера (программа сканера не только расшифрует закодированную информацию, но и отправит данные в контакты или откроет ссылку в браузере):
Если вы, например, захотели добавить интересную статью в закладки сотового (для его прочтения в дороге), то для всех современных браузеров предусмотрены дополнения и плагины, позволяющие закодировать URL адреса в QR, а затем вы сможете его считать камерой мобильного телефона и указанная страница будет открыта в мобильном браузере. Тоже самое касается выделенных фрагментов текста.
3. Измерение информации
Вокруг нас существуют преимущественно два сигнала, например:
- Светофор: красный - зеленый;
- Вопрос: да - нет;
- Лампа: горит - не горит;
- Можно - нельзя;
- Хорошо - плохо;
- Истина - ложь;
- Вперед - назад;
- Есть - нет;
- 1 - 0.
Всё это сигналы, обозначающие количество информации в 1 бит.
1 бит - это такое количество информации, которое позволяет нам выбрать один вариант из двух возможных.
Компьютер - это
электрическая машина, работающая на электронных схемах. Чтобы компьютер
распознал и понял вводимую информацию, ее надо перевести на компьютерный
(машинный) язык.
4. Распознавание информации компьютером
Алгоритм,
предназначенный для исполнителя, должен быть записан, то есть закодирован, на
языке, понятном компьютеру.
Это
электрические сигналы: проходит ток или не проходит ток.
Машинный
двоичный язык - последовательность "0" и "1". Каждое
двоичное число может принимать значение 0 или 1.
Двоичный код – это способ представления информации с помощью двух
символов 0 и 1.
Длина кода – количество знаков, используемых для представления
кодируемой информации.
Каждая цифра
машинного двоичного кода несет количество информации, равное 1 бит.
|
Устройства |
1 |
0 |
|
Электронные
схемы |
Проводят
электрический ток |
Не проводят
электрический ток |
|
Участок
поверхности магнитного носителя (жесткий диск, дискета) |
Намагничен |
Размагничен |
|
Участок
поверхности лазерного диска |
Отражает луч |
Не отражает
луч |
Двоичное число, которое представляет наименьшую единицу информации, называется бит. Бит может принимать значение либо 0, либо 1. Наличие магнитного или электронного сигнала в компьютере означает 1, отсутствие 0.
Эти знаки
называются двоичными цифрами, по-английски -binary digit или сокращенно bit
(бит).
Одним битом
могут быть выражены два понятия: 0 или 1 (да или нет, черное или
белое, истина или ложь и т.п.). Если количество битов
увеличить до двух, то уже можно выразить четыре различных понятия:
00
01 10 11
Тремя битами
можно закодировать восемь различных значений:
000
001 010 011 100 101 110 111
Увеличивая на
единицу количество разрядов в системе двоичного кодирования, мы увеличиваем в
два раза количество значений, которое может быть выражено в данной системе, то
есть общая формула имеет вид:
N=2m,
где N- количество независимых кодируемых значений;
m - разрядность двоичного кодирования, принятая в
данной системе.
|
m |
N |
|
1 |
2 |
|
2 |
4 |
|
3 |
8 |
|
4 |
16 |
|
... |
... |
|
8 |
256 |
5. Кодирование
информации
Кодирование текстовой информации
Любой текст
состоит из последовательности символов. Символами могут быть буквы, цифры,
знаки препинания, знаки математических действий, круглые и квадратные скобки и
т.д. Текстовая информация, как и любая другая, хранится в памяти компьютера в
двоичном виде. Для этого каждому ставится в соответствии некоторое
неотрицательное число, называемое кодом символа, и это число записывается в
память ЭВМ в двоичном виде. Конкретное соотношение между символами и их кодами
называется системой кодировки. В персональных компьютерах обычно
используется система кодировки ASCII
(American Standard Code for Informational Interchange – Американский
стандартный код для информационного обмена).
ASCII изначально была разработана как 7-битная для представления 128 символов,
при использовании в компьютерах на символ выделялось 8 бит (1 байт), где 8-ой
бит служил для контроля целостности (бит четности). Позднее, с задействованием
8 бита для представления дополнительных символов (всего 256 символов), например,
букв национальных алфавитов, стала восприниматься как половина 8-битной. В
частности, на основе ASCII были разработаны кодировки, содержащие буквы
русского алфавита: для операционной системы MS-DOS - cp866 (англ. code page –
кодовая страница), для операционной системы MS Windows – Windows 1251, для
различных операционных систем – КОИ-8 (код обмена информацией, 8 битов), ISO
8859-5 и другие.
|
Кодировка
ASCII |
|||||
|
Двоичный |
Десятичный |
Символ |
Двоичный |
Десятичный |
Символ |
|
00000000 |
0 |
NUL |
01000000 |
64 |
@ |
|
00000001 |
1 |
SOH |
01000001 |
65 |
A |
|
00000010 |
2 |
STX |
01000010 |
66 |
B |
|
00000011 |
3 |
ETX |
01000011 |
67 |
C |
|
00000100 |
4 |
EOT |
01000100 |
68 |
D |
|
00000101 |
5 |
ENQ |
01000101 |
69 |
E |
|
00000110 |
6 |
ACK |
01000110 |
70 |
F |
…
Unicode - стандарт кодирования символов, позволяющий
представить знаки почти всех письменных языков. Стандарт был предложен в 1991
г. некоммерческой организацией «Консорциум Юникода» (англ. Unicode Consortium,
Unicode Inc.). Применение этого стандарта позволяет закодировать большее число
символов (чем в ASCII и прочих кодировках) за счет двухбайтового кодирования
символов (всего 65536 символов). В документах Unicode могут соседствовать
китайские иероглифы, математические символы, буквы греческого алфавита, латиницы
и кириллицы.
Коды в
стандарте Unicode разделены на несколько разделов. Первые 128 кодов
соответствуют кодировке ASCII. Далее расположены разделы букв различных
письменностей, знаки пунктуации и технические символы.
Кодирование
цвета
Чтобы сохранить
в двоичном коде фотографию, ее сначала виртуально разделяют на множество мелких
цветных точек, называемых пикселями (что-то на подобии
мозаики). После разбивки на точки цвет каждого пикселя кодируется в бинарный
код и записывается на запоминающем устройстве.
Пример 1. Если говорят, что размер изображения составляет,
например, 512х512 точек, это значит, что оно представляет собой матрицу,
сформированную из 262144 пикселей (количество пикселей по вертикали, умноженное
на количество пикселей по горизонтали).
Пример 2. Прибором, "разбивающим" изображения на
пиксели, является любая современная фотокамера (в том числе веб-камера, камера
телефона) или сканер. И если в характеристиках камеры значится, например,
"10 Mega Pixels", значит количество пикселей, на которые эта камера
разбивает изображение для записи в двоичном коде, - 10 миллионов. Чем на
большее количество пикселей разделено изображение, тем реалистичнее выглядит
фотография в декодированном виде (на мониторе или после распечатывания). Однако
качество кодирования фотографий в бинарный код зависит не только от количества
пикселей, но также и от их цветового разнообразия.
Алгоритмов
записи цвета в двоичном коде существует несколько. Самым распространенным из
них является RGB. Эта аббревиатура –
первые буквы названий трех основных цветов: красного – англ.Red, зеленого –
англ. Green, синего – англ. Blue. Смешивая эти три цвета в разных пропорциях,
можно получить любой другой цвет или оттенок. На этом и построен алгоритм RGB.
Каждый пиксель записывается в двоичном коде путем указания количества красного,
зеленого и синего цвета, участвующего в его формировании. Чем больше битов
выделяется для кодирования пикселя, тем больше вариантов смешивания этих трех
каналов можно использовать и тем значительнее будет цветовая насыщенность
изображения.
Цветовое
разнообразие пикселей, из которых состоит изображение, называется глубиной
цвета.
Кодирование звуковой информации
Любой звук,
слышимый человеком, является колебанием воздуха, которое характеризируется
двумя основными показателями: частотой и амплитудой. Амплитуда колебаний - это степень отклонения состояния воздуха от
начального при каждом колебании. Она воспринимается нами как громкость звука. Частота колебаний - это количество
отклонений состояний воздуха от начального за единицу времени. Она воспринимается
как высота звука.
Пример 3. Так, тихий комариный писк - это звук с высокой
частотой, но с небольшой амплитудой. Звук грозы наоборот имеет большую
амплитуду, но низкую частоту. Схему работы компьютера со звуком в общих чертах
можно описать так. Микрофон превращает колебания воздуха в аналогичные по
характеристикам электрических колебаний. Звуковая карта компьютера преобразовывает
электрические колебания в двоичный код, который записывается на запоминающем
устройстве. При воспроизведении такой записи происходит обратный процесс
(декодирование) - двоичный код преобразуется в электрические колебания, которые
поступают в аудиосистему или наушники. Динамики акустической системы или
наушников имеют противоположное микрофону действие. Они превращают
электрические колебания в колебания воздуха. Принцип разделения звуковой волны
на мелкие участки лежит в основе двоичного кодирования звука. Аудиокарта
компьютера разделяет звук на очень мелкие временные участки и кодирует степень
интенсивности каждого из них в двоичный код. Такое дробление звука на части
называется дискретизацией. Чем выше
частота дискретизации, тем точнее фиксируется геометрия звуковой волны и тем
качественней получается запись.
Качество записи
сильно зависит также от количества битов, используемых компьютером для кодирования
каждого участка звука, полученного в результате дискретизации. Количество
битов, используемых для кодирования каждого участка звука, полученного при
дискретизации, называется глубиной звука.
Кодирование видеозаписи
Видеозапись
состоит из двух компонентов: звукового и графического. Кодирование звуковой дорожки
видеофайла в двоичный код осуществляется по тем же алгоритмам, что и
кодирование обычных звуковых данных. Принципы кодирования видеоизображения
схожи с кодированием растровой графики (рассмотрено выше), хотя и имеют
некоторые особенности. Как известно, видеозапись - это последовательность
быстро меняющихся статических изображений (кадров). Одна секунда видео может
состоять из и больше картинок. При этом, каждый следующий кадр лишь
незначительно отличается от предыдущего. Учитывая эту особенность, алгоритмы
кодирования видео, как правило, предусматривают запись лишь первого (базового)
кадра. Каждый же последующий кадр формируются путем записи его отличий от
предыдущего.
Кроме бита и байта, существуют и другие единицы
измерения информации.
|
Название |
Обозначение |
Количество
байт |
|
байт |
Б |
20
байт |
|
килобайт |
Кбайт |
210
байт |
|
мегабайт |
Мбайт |
220
байт |
|
гигабайт |
Гбайт |
230
байт |
|
терабайт |
Тбайт |
240
байт |
|
петабайт |
Пбайт |
250
байт |
|
эксабайт |
Эбайт |
260
байт |
|
зеттабайт |
Збайт |
270
байт |
|
йоттабайт |
Ибайт |
280
байт |