Как найти вес одного символа в битах

Информатика

7 класс

Урок № 6

Единицы измерения информации

Перечень вопросов, рассматриваемых в теме:

  • Алфавитный подход к измерению информации.
  • Наименьшая единица измерения информации.
  • Информационный вес одного символа алфавита и информационный объём всего сообщения.
  • Единицы измерения информации.
  • Задачи по теме урока.

Тезаурус:

Каждый символ информационного сообщения несёт фиксированное количество информации.

Единицей измерения количества информации является бит – это наименьшаяединица.

1 байт = 8 бит

1 Кб (килобайт) = 1024 байта= 210байтов

1 Мб (мегабайт) = 1024 Кб = 210Кб

1 Гб (гигабайт) = 1024 Мб = 210 Мб

1 Тб (терабайт) =1024 Гб = 210 Гб

Формулы, которые используются при решении типовых задач:

Информационный вес символа алфавита и мощность алфавита связаны между собой соотношением: N = 2i.

Информационный объём сообщения определяется по формуле:

I = К · i,

I – объём информации в сообщении;

К – количество символов в сообщении;

i – информационный вес одного символа.

Основная литература:

  1. Босова Л. Л. Информатика: 7 класс. // Босова Л. Л., Босова А. Ю. – М.: БИНОМ, 2017. – 226 с.

Дополнительная литература:

  1. Босова Л. Л. Информатика: 7–9 классы. Методическое пособие. // Босова Л. Л., Босова А. Ю., Анатольев А. В., Аквилянов Н.А. – М.: БИНОМ, 2019. – 512 с.
  2. Босова Л. Л. Информатика. Рабочая тетрадь для 7 класса. Ч 1. // Босова Л. Л., Босова А. Ю. – М.: БИНОМ, 2019. – 160 с.
  3. Босова Л. Л. Информатика. Рабочая тетрадь для 7 класса. Ч 2. // Босова Л. Л., Босова А. Ю. – М.: БИНОМ, 2019. – 160 с.
  4. Гейн А. Г. Информатика: 7 класс. // Гейн А. Г., Юнерман Н. А., Гейн А.А. – М.: Просвещение, 2012. – 198 с.

Теоретический материал для самостоятельного изучения.

Любое сообщение несёт некоторое количество информации. Как же его измерить?

Одним из способов измерения информации является алфавитный подход, который говорит о том, что каждый символ любого сообщения имеет определённый информационный вес, то есть несёт фиксированное количество информации.

Сегодня на уроке мы узнаем, чему равен информационный вес одного символа и научимся определять информационный объём сообщения.

Что же такое символ в компьютере? Символом в компьютере является любая буква, цифра, знак препинания, специальный символ и прочее, что можно ввести с помощью клавиатуры. Но компьютер не понимает человеческий язык, он каждый символ кодирует. Вся информация в компьютере представляется в виде нулей и единичек. И вот эти нули и единички называются битом.

Информационный вес символа двоичного алфавита принят за минимальную единицу измерения информации и называется один бит.

Алфавит любого понятного нам языка можно заменить двоичным алфавитом. При этом мощность исходного алфавита связана с разрядностью двоичного кода соотношением: N = 2i.

Эту формулу можно применять для вычисления информационного веса одного символа любого произвольного алфавита.

Рассмотрим пример:

Алфавит древнего племени содержит 16 символов. Определите информационный вес одного символа этого алфавита.

Составим краткую запись условия задачи и решим её:

Дано:

N=16, i = ?

Решение:

N = 2i

16 = 2i, 24 = 2i, т. е. i = 4

Ответ: i = 4 бита.

Информационный вес одного символа этого алфавита составляет 4 бита.

Сообщение состоит из множества символов, каждый из которых имеет свой информационный вес. Поэтому, чтобы вычислить объём информации всего сообщения, нужно количество символов, имеющихся в сообщении, умножить на информационный вес одного символа.

Математически это произведение записывается так: I = К · i.

Например: сообщение, записанное буквами 32-символьного алфавита, содержит 180 символов. Какое количество информации оно несёт?

Дано:

N = 32,

K = 180,

I= ?

Решение:

I = К · i,

N = 2i

32 = 2i, 25 = 2 i, т.о. i = 5,

I = 180 · 5 = 900 бит.

Ответ: I = 900 бит.

Итак, информационный вес всего сообщения равен 900 бит.

В алфавитном подходе не учитывается содержание самого сообщения. Чтобы вычислить объём содержания в сообщении, нужно знать количество символов в сообщении, информационный вес одного символа и мощность алфавита. То есть, чтобы определить информационный вес сообщения: «сегодня хорошая погода», нужно сосчитать количество символов в этом сообщении и умножить это число на восемь.

I = 23 · 8 = 184 бита.

Значит, сообщение весит 184 бита.

Как и в математике, в информатике тоже есть кратные единицы измерения информации. Так, величина равная восьми битам, называется байтом.

Бит и байт – это мелкие единицы измерения. На практике для измерения информационных объёмов используют более крупные единицы: килобайт, мегабайт, гигабайт и другие.

1 байт = 8 бит

1 Кб (килобайт) = 1024 байта= 210байтов

1 Мб (мегабайт) = 1024 Кб = 210Кб

1 Гб (гигабайт) = 1024 Мб = 210 Мб

1 Тб (терабайт) =1024 Гб = 210 Гб

Итак, сегодня мы узнали, что собой представляет алфавитный подход к измерению информации, выяснили, в каких единицах измеряется информация и научились определять информационный вес одного символа и информационный объём сообщения.

Материал для углубленного изучения темы.

Как текстовая информация выглядит в памяти компьютера.

Набирая текст на клавиатуре, мы видим привычные для нас знаки (цифры, буквы и т.д.). В оперативную память компьютера они попадают только в виде двоичного кода. Двоичный код каждого символа, выглядит восьмизначным числом, например 00111111. Теперь возникает вопрос, какой именно восьмизначный двоичный код поставить в соответствие каждому символу?

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код ‑ просто порядковый номер символа в двоичной системе счисления.

Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.Таблица для кодировки – это «шпаргалка», в которой указаны символы алфавита в соответствии порядковому номеру. Для разных типов компьютеров используются различные таблицы кодировки.

Таблица ASCII (или Аски), стала международным стандартом для персональных компьютеров. Она имеет две части.

В этой таблице латинские буквы (прописные и строчные) располагаются в алфавитном порядке. Расположение цифр также упорядочено по возрастанию значений. Это правило соблюдается и в других таблицах кодировки и называется принципом последовательного кодирования алфавитов. Благодаря этому понятие «алфавитный порядок» сохраняется и в машинном представлении символьной информации. Для русского алфавита принцип последовательного кодирования соблюдается не всегда.

Запишем, например, внутреннее представление слова «file». В памяти компьютера оно займет 4 байта со следующим содержанием:

01100110 01101001 01101100 01100101.

А теперь попробуем решить обратную задачу. Какое слово записано следующим двоичным кодом:

01100100 01101001 01110011 01101011?

В таблице 2 приведен один из вариантов второй половины кодовой таблицы АSСII, который называется альтернативной кодировкой. Видно, что в ней для букв русского алфавита соблюдается принцип последовательного кодирования.

Вывод: все тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные для нас буквы, цифры, знаки препинания и другие символы. В оперативную память они попадают в форме двоичного кода.

Из памяти же компьютера текст может быть выведен на экран или на печать в символьной форме.

Сейчас используют целых пять систем кодировок русского алфавита (КОИ8-Р, Windows, MS-DOS, Macintosh и ISO). Из-за количества систем кодировок и отсутствия одного стандарта, очень часто возникают недоразумения с переносом русского текста в компьютерный его вид. Поэтому, всегда нужно уточнять, какая система кодирования установлена на компьютере.

Разбор решения заданий тренировочного модуля

№1. Определите информационный вес символа в сообщении, если мощность алфавита равна 32?

Варианты ответов:

3

5

7

9

Решение:

Информационный вес символа алфавита и мощность алфавита связаны между собой соотношением: N = 2i.

32 = 2i, 32 – это 25, следовательно, i =5 битов.

Ответ: 5 битов.

№2. Выразите в килобайтах 216 байтов.

Решение:

216 можно представить как 26 · 210.

26 = 64, а 210 байт – это 1 Кб. Значит, 64 · 1 = 64 Кб.

Ответ: 64 Кб.

№3. Тип задания: выделение цветом

8х = 32 Кб, найдите х.

Варианты ответов:

3

4

5

6

Решение:

8 можно представить как 23. А 32 Кб переведём в биты.

Получаем 2=32 · 1024 ·8.

Или 2 = 25 · 210 · 23.

2 = 218.

3х = 18, значит, х=6.

Ответ: 6.

Каждый объект в компьютере (или любом другом электронном устройстве) имеет свой информационный объём, то есть то количество информации, которое он занимает в памяти устройства.

Например, текстовый документ на (2)–(3) страницы может иметь информационный объём (150) Кб.

Изображение в хорошем качестве — (2)–(4) Мб.

Аудиофайл с песней на (3) минуты — около (6) Мб.

Рассмотрим измерение текстовой информации в компьютере.

Размер текстового сообщения зависит от того, с помощью какого алфавита он был написан и сколько в нём символов.

Алфавит (N) — это количество символов в некотором языке.

Чем больше алфавит, тем больше информационный вес одного символа.

Информационный вес одного символа (i) — это количество информации, которое отводится на один символ.

Обрати внимание!

Они связаны формулой:

N=2i

.

Например, в русском алфавите (33) буквы, вычислим информационный вес одного символа по формуле:

33=2i,i≈5

 бит. То есть вес одного символа (буквы) — (5) бит.

Представим, что в тетрадке записана следующая строка: «Мама сидела за столом».

Как посчитать, сколько информации несёт в себе это сообщение?

Нам известно, сколько весит один символ — (5) бит, можно подсчитать количество символов в данном сообщении — (18), соответственно, чтобы найти, сколько всего информации несёт в себе это сообщение, нужно перемножить информационный вес одного символа и количество символов в сообщении.

Обрати внимание!

Можно вывести формулу:

I=K×i

,

где (I) — информационный объём сообщения;

(K) — количество символов в сообщении;

(i) — информационный вес одного символа. 

Но мы будем работать с компьютерным текстом. Там алфавит намного больше.

Как ты думаешь, сколько всего символов можно ввести с клавиатуры?

Ты скажешь «много» и будешь прав: с клавиатуры можно ввести русские/английские буквы, цифры, специальные знаки и т. д. Всего (256) символов.

Посчитаем информационный вес одного символа компьютерного алфавита.

N=2i.256=2i.256=28.

Один символ компьютерного алфавита весит (8) бит или (1) байт.

Решим задачу.

Найди информационный объём текста (в битах), написанного с помощью компьютера:

«Информация — это сведения об окружающем нас мире».

Текст напечатан на компьютере, поэтому один символ весит (8) бит или (1) байт.

Всего символов в сообщении между кавычками: (48). При подсчёте символов учитываются все символы и пробелы.

Запишем решение:

I=K×i.I=48×8.I=384бит.

Ответ: (384) бита.

Задача

Найди информационный объём сообщения (в байтах), который напечатали школьники на уроке информатики, если оно содержит (2) страницы, на каждой странице по (12) строк, и в каждой строке (28) символов.

Оформим решение задачи.

Дано:

K=2×12×28.i=1байт.

Чтобы посчитать, сколько символов всего в сообщении, нужно умножить количество страниц на количество строк и на количество символов в каждой строке. 

В условии сказано, что текст напечатали, поэтому один символ равен (1) байту.

I=K×i.I=2×12×28×1.I=672байта.

Найти: (I) — ? Ответ: (672) байта.

Вспомним некоторые известные нам факты:

Множество символов, с помощью которых записывается текст, называется алфавитом

Число символов в алфавите – это его мощность

Формула определения количества информации: N=2 i  ,

где N – мощность алфавита (количество символов),

i – количество бит (информационный вес символа). 

В алфавит мощностью 256 символов можно поместить практически все необходимые символы. Такой алфавит называется достаточным

Т.к. 256 = 28, то вес 1 символа – 8 бит. 

Единице измерения 8 бит присвоили название 1 байт: 

1 байт = 8 бит. 

Двоичный код каждого символа в компьютерном тексте занимает 1 байт памяти.

Задачи:

1) Алфавит содержит 32 буквы. Какое количество информации несет одна буква?

Дано: Мощность алфавита N = 32

Решение: 

1. 32 = 5, значит вес одного символа i = 5 бит. 

Ответ: одна буква несет 5 бит информации. 

2) Сообщение, записанное буквами из 16 символьного алфавита, содержит 10 символов. Какой объем информации в битах оно несет? 

Дано: Мощность алфавита N = 16 текст состоит из 10 символов.

Решение: 

1. 16 = 4

2. Всего символов 10, значит объем информации 10 * 4 = 40 бит. 

Ответ: сообщение несет 40 бит информации (8 байт).

3) Информационное сообщение объемом 300 бит содержит 100 символов. Какова мощность алфавита? 

Дано: Объем сообщения = 300 бит текст состоит из 100 символов

Решение: 

1. Определим вес одного символа: 300 / 100 = 3 бита. 

2. Мощность алфавита определяем по формуле:  = 8

Ответ: мощность алфавита N = 8. 

На прошлых уроках мы
узнали:

·     Алфавитом
языка
называется набор всех различных символов, которые
используются для представления информации на этом языке.

·     Любой
алфавит характеризуется своей мощностью, так называется количество
символов, которые в него входят.

·     Мощность
двоичного алфавита – всего два символа.

·     Двоичным
кодированием
называется запись информации с помощью
символов двоичного алфавита, а двоичным кодом – код информации,
получившийся в результате двоичного кодирования.

·     Двоичное
кодирование универсально
, это означает, что с помощью
двоичного кода можно представить любую информацию.

·     На
компьютере любая информация хранится в виде двоичных кодов.

Вопросы:

·     Алфавитный
подход к измерению информации.

·     Информационный
вес символа.

·     Информационный
объём сообщения.

·     Единицы
измеряется информации.

Как мы помним, информация
для человека
– это набор сигналов, которые человек получает из различных
источников. Человек, каким-то образом их воспринимает и интерпретирует, придёт
им какое-то значение. Однако разные люди могут интерпретировать сигналы по-разному.
Так одно и то же сообщение, то есть один и тот же набор сигналов, может нести
разным людям совершенно разную информацию. Как же тогда можно измерить
информацию?

Всего существует два
подхода к измерению информации. Первый подход – содержательный. Как ясно
из названия, он оценивает содержание информации. А как же можно оценить
содержание информации? Универсально оценить содержание любой информацию
позволяют её свойства
: объективность, достоверность полнота, актуальность,
полезность и понятность. Однако, часть свойств информации субъективна, то есть
для разных людей информация может быть по-разному полезна, понятна или
актуальна. Потому измерение информации с помощью этого подхода часто тоже
субъективно. Для того, чтобы объективно измерить информацию нельзя опираться на
её содержание.

Измерить информацию независимо
от её содержания позволяет алфавитный подход.  Рассмотрим его подробнее.
Прежде чем что-нибудь выразить количественно, необходимо установить, для этого
единицу измерения. Так расстояние измеряется в метрах, а время в секундах. А в
чём же измеряется информация? В алфавитном подходе считается, что каждый символ
алфавита, который использован для записи информации, имеет некоторый
информационный вес. Это означает, что он несёт некоторое количество информации.
Все символы одного и того же алфавита имеют одинаковый информационный вес.
Информационный вес каждого из символов алфавита зависит от мощности этого
алфавита. Минимальная единица измерения информации – это информационный вес
одного символа двоичного алфавита. Эта величина получила название один бит
Слово бит на английском языке (Bit)
произошло как результат сокращения словосочетания «Binary
digit», что в переводе
на русский язык, означает «двоичный символ».

Почему же именно один бит
был принят в качестве минимальной единицы измерения информации? Как мы помним
из прошлого урока, любую информацию можно записать в виде её двоичного кода, то
есть представить её как совокупность двоичных символов. В то же время меньшей
информационной единицы, чем один бит просто не существует. Наверняка у вас
возник вопрос, почему? Вспомним, чем является любой алфавит. Любой алфавит –
это знаковая система. А какая знаковая система минимальна? Сколько символов она
содержит? 2. Так как 1 символ, вне знаковой системы не может нести информацию.
То есть двоичный алфавит – это минимальная знаковая система.

Раньше мы узнали, что
алфавит любого языка, естественного или формального можно заменить двоичным
алфавитом. Для этого всем символам алфавита можно присвоить уникальные двоичные
коды одинаковой разрядности. Причём минимальная разрядность двоичного кода, необходимая,
для кодирования одного символа алфавита,
зависит от мощности кодируемого алфавита. Запишем выражение для этой
зависимости. Мощность алфавита обозначим латинской буквой «М», а минимальную
необходимую разрядность двоичного кода – буквой «i».
Тогда M = 2i,
или перемноженной последовательности из i
двоек. При этом, если мощность алфавита нельзя получить простым перемножением
двоек, то она увеличивается до числа, которое можно получить таким образом. Это
делается потому, что иначе двоичный код с меньшей разрядностью не сможет
уникальным образом закодировать все символы алфавита.

Информационным весом
символа
называется, количество информации, которое он несёт в
рамках своего алфавита. Она равна минимальной разрядности двоичного кода,
необходимой для равномерного кодирования алфавита этого символа. Информационный
вес символа, как и любая информация измеряется в битах.

Задача: алфавит
русского языка содержит:

·    
тридцать
три буквы,

·    
десять
арабских цифр,

·    
одиннадцать
знаков препинания,

·    
и
пробел.

Вычислить информационный
вес одного символа из алфавита русского языка.

В начале нужно найти
мощность русскоязычного алфавита M.
Для этого посчитаем общее число всех символов: букв – 33, количество цифр – 10,
количество знаков препинания – 11 и добавим ещё 1, то есть пробел. M
= 33 + 10 + 11+ 1 = 55. Общая мощность русского алфавита равна 55 символам.
Теперь найдём, какая разрядность двоичного кода потребуется, чтобы закодировать
1 символ алфавита мощностью 55 символов. Информационный вес символа будет равен
этой разрядности. То есть M
= 55 = 2i. Число 55 мы не можем
получить простым перемножением двоек. Поэтому увеличим число до 64-х. Для того,
чтобы получить 64, нужно перемножить 6 двоек или 26. i
= 6. Мы можем дать ответ: информационный вес одного символа русского алфавита –
6 бит.

Таким образом мы
научились измерять информацию, которую несёт 1 символ алфавита. Однако в
действительности информация передаётся целыми сообщениями, которые складываются
из множества символов. Как же измерить такую информацию? Размер информации,
которую несёт сообщение, называется его информационным объёмом. Он
складывается из информационных весов всех символов, из которых состоит
сообщение. Его можно рассчитать следующим образом… Обозначим информационный
объём сообщения латинской буквой «V»,
а латинской буквой «L» — длину сообщения, в
символах. Так V = i
× L. То есть информационный
объём равен произведению информационного веса одного символа и количества
символов в сообщении.

Задача: сообщение
содержит 296 бит информации. Его длина – 37 символов. Какова максимальная
мощность алфавита, с помощью символов которого записано это сообщение?

Так как мы знаем
информационный объём сообщения и его длину – мы можем найти информационный вес
одного его символа. Информационный вес символа равен информационному объёму
сообщения делённому на длину сообщения, i
= V / L.
296 / 37 = 8 бит. Информационный вес одного символа нашего алфавита – восемь
бит. Так как мы знаем информационный вес каждого символа алфавита, то есть
разрядность двоичного кода символа такого алфавита, мы можем найти его
максимальную мощность. Максимальная мощность равна двум в степени
информационного веса символа. M
= 2i = 28 = 256.
Мы можем дать ответ: максимальная мощность алфавита – 256 символов.

Итак, минимальная единица
измерения информации один бит, и мы можем выразить с помощью этой величины
любой объём информации, но всегда ли это удобно? Ведь текст на компьютере может
содержать десятки и даже сотни тысяч символов, а звуки и изображения
представляются миллиардами символов двоичного кода. Для удобства измерения
такой информации были введены и более крупные единицы.

Первая из них – байт,
рассмотрим, как же он появился и чему равен. В самом начале большая
часть информации на компьютерах была текстовой. Для набора информации
использовалось несколько алфавитов, или кодировок. Большинство из них содержало
по 256 символов. Это означает что информационный вес одного символа в таком
алфавите был 8 бит. Так же именно 8 бит информации могли одновременно
обрабатывать процессоры того времени. Эта величина и была названа байтом.

Так же существуют и ещё
более крупные единицы информации, например килобайты (Кб). Некоторые из вас
могут подумать, что в 1 килобайте 1000 байт, так же как в 1 килограмме – 1000
грамм. Однако это не верно. Для более удобного измерения информации на
компьютере 1 килобайт содержит не 1000, а 1024 байта. Почему именно 1024?
Потому, что 1024 = 210. Есть и ещё более крупные величины. Так один
мегабайт (Мб) содержит 1024 Кб. Ещё десять лет назад информация, содержащаяся на
компьютере, измерялась в гигабайтах. Один гигабайт (Гб) содержит 1024 Мб. Сейчас
на одном домашнем компьютере могут храниться терабайты (Тб) информации, и в 1 Тб
– сколько, как вы думаете? – Правильно: 1024 Гб.

Задача:
на заводе работает автоматическая система учёта рабочего времени. По приходу на
работу, и при уходе с работы сотрудник вставляет свою карту-пропуск в
специальное устройство и оно заносит в память сообщение, которое состоит из 2
частей: уникального двоичного кода сотрудника и текущего времени. Найти
минимальный информационный объём, который устройство внесло
в память за день, если известно, что:

·     всего
на заводе работает 714 сотрудников;

·     на
работу вышло 698 сотрудников;

·     часть
сообщения, которая содержит текущее время, имеет информационный объём 3 байта;

·     все
уникальные двоичные коды сотрудников имеют одинаковую разрядность.

Итак, минимальный
информационный объём – Vобщ.,
который устройство занесло в память в течение дня можно найти, умножив
информационный объём одного сообщения Vсообщ.
на количество сообщений Nсообщ.
Количество сообщений Nсообщ.
равно количеству сотрудников Nсотр.,
которые вышли на работу в течение дня, умноженному на 2, так как на каждого
сотрудника приходится 2 сообщения: одно – когда он приходит на работу, а второе
– когда уходит. Nсообщ.
= Nсотр.
× 2 = 1396 сообщений за день.

Информационный объём
одного сообщения состоит из информационного объёма уникального двоичного кода
сотрудника Vкода и
информационного объёма времени, который равен 3 байтам. Теперь нам нужно найти
информационный объём уникального двоичного кода сотрудника. Мы можем
представить всех сотрудников, которые работают на заводе, в качестве алфавита
мощностью 714 символов. Нам остаётся найти информационный вес одного символа.

Как мы помним это можно
сделать по формуле M=2i.
Мы не можем получить 714 путём перемножения двоек, зато мы можем так получить
число 1024. 1024 = 210. Значит информационный объём Vкода
= 10 бит. Теперь найдём информационный объём Vсообщ.
он состоит из 10 бит уникального двоичного кода и 3 байт времени. Переведём 3
байта в биты, для этого умножим число 3 на 8. 3 × 8 = 24 бита и 10 бит
кода. Информационный объём одного сообщения Vсообщ. =
24 + 10 = 34 бита. Теперь остаётся лишь найти информационный объём Vобщ.
Для этого информационный объём одного сообщения Vсообщ.
умножим на количество сообщений Nсообщ.
34 × 1396 = 47 464 бита. Для удобства переведём в более крупные величины.
47 464 / 8 = 5933 байта, 5933 / 1024 = 5,8 Кб. Ответ: За день в память
устройства поступило 5,8 Кб информации.

Важно запомнить:

·     Алфавитный
подход
позволяет измерить объём информации не зависимо от её
содержания. При этом каждый символ несёт, некоторое количество информации, имеет
информационный вес (
i).

·     Минимальная
единица измерения информации – 1 бит.

·     Мощность
алфавита
равна двум в степени, равной информационному весу
символа (M = 2i).

·     Информационный
объём
сообщения равен произведению информационного веса
одного символа и длины сообщения (V
=
i × L).

·     1
байт

= 8 бит.

·     Байты,
килобайты (Кб), мегабайты (Мб), гигабайты (Гб), терабайты (Тб)

– единицы измерения информация. Каждая следующая больше предыдущей в 1024 раза.

Объём памяти текстовой информации

В компьютере все символы представляются в виде кода из 0 и 1. Для работы с кодированием цифр, букв и других символов, таких как знаки препинания, пробелы, арифметические операции и т.д. были придуманы таблицы кодировок.

Количество символов необходимое нам для набора текста, состоящего из этих специальных символов, цифр и букв английского алфавита было закодировано с помощью таблицы ASCII (American Standard Code for Information Interchange). В этом наборе вес одного символа имеет 7 бит (27 — ближайшая максимальная степень двойки). Но в рамках этой таблицы создание многоязычных документов оказалось очень проблематичным. Эту кодировку пытались расширять, и это получалось, но программное обеспечение должно было следить за кодовыми страницами, и смешивать языки оказалось невозможным.

Позже появилась еще одна кодировка Unicode, которая позволяла закодировать 1 114 112 символов. Стандарт Unicode поддерживается тремя формами:

  • 32-битной (UTF-32) – вес символа – 32 бита

  • 16-битной (UTF-16) – вес символа – 16 бит

  • 8-битной (UTF-8). – вес символа – 8 бит.

Для экзамена нужно только понимать, что 32 битной кодировке Unicode один символ весит 32 бита, а в 16 битной — 16 бит, а в 8 битной — 8 бит.

Также существуют кодировки КОИ, которые широко использовались до 2010 года как русскоязычные кодировки. С распространением кодировок Unicod их использование стало очень редким.

С точки зрения информационного объёма документа подобный принцип кодирования прост – каждый символ несёт в себе определённое количество бит, итоговый информационный объём текста определяется как: Вес одного символа* на количество символов в тексте.

Например: пусть часть текста стихотворения «Я к вам пишу – чего же боле? Что я могу ещё сказать?» записана с использованием кодировки UTF – 16, тогда размер этой фразы будет равен:

16 бит (вес одного символа) * 52 (количество символов, учитывая пробелы и знаки препинания) = 832 бита.

Единицы измерения информации.

Для работы с объёмом памяти полезно вспомнить перевод единиц измерения количества информации.

Один двоичный знак — 0 или 1 — называется бит (англ. bit — сокращение от английских слов binary digit, что означает двоичная цифра).

Бит представляет наименьшую единицу информации. Однако компьютер имеет дело не с отдельными битами, а с байтами.

Байтом называется единица, равная 8 (23) бит.

Ее выделили и назвали отдельно, потому что она имеет важное значение для компьютерной памяти.

В информатике принято получать новые единицы измерения умножением на 2 в различных степенях — 10 (кило-), 20 (мега-), 30 (гига-) и т.д.

1 байт = 8 бит = 23 бит

1 Кбайт (Килобайт) = 210 байт = 213 бит

1 Мбайт (Мегабайт) = 220 байт = 223 бит

1 Гбайт (Гигабайт) = 230 байт = 233 бит

Рассмотрим примеры заданий экзамена, связанных с определением объёма текстовой информации.

Пример 1.

Задание.

В одной из кодировок Unicode каждый символ кодируется 16 битами. Ученик написал текст (в нём нет лишних пробелов):

«Ёж, лев, слон, олень, тюлень, носорог, крокодил, аллигатор – дикие животные».

Ученик вычеркнул из списка название одного из животных. Заодно он вычеркнул ставшие лишними запятые и пробелы – два пробела не должны идти подряд.

При этом размер нового предложения в данной кодировке оказался на 16 байт меньше, чем размер исходного предложения. Напишите в ответе вычеркнутое название животного.

Решение.

Для начала определим количество удалённых из текста символов. Для этого поделим 16 байт (то, на сколько уменьшился текст) на вес одного символа – 16 бит.

(frac{16 байт}{16 бит} = frac{16*8 бит}{16 бит} = 8 символов)

Так как по условию задания слово удалялось вместе со ставшими лишними запятой и пробелами, то длинна самого слова – 6 символов (при удалении слова уйдут 1 запятая и 1 пробел).

Название животного длинной 6 символов в тексте одно – это «тюлень».

Ответ: ТЮЛЕНЬ

Пример 2.

Задание.

Статья, набранная на компьютере, содержит 48 страниц, на каждой странице 40 строк, в каждой строке 64 символа. Определите размер статьи в кодировке КОИ-8, в которой каждый символ кодируется 8 битами.

1) 120 Кбайт

2) 240 Кбайт

3) 1920 байт

4) 960 байт

Решение.

Определим количество символов в тексте, для этого умножим количество страниц на количество строк на странице и затем на количество символов строке. Для удобства вычислений будем использовать степени двойки.

(48*40*64 = {3*2}^{4}*5*2^{3}*2^{6} = 15*2^{13} символов)

Теперь определим вес статьи в битах.

(15*2^{13} символов*8 бит = 15*2^{16}бит)

Варианты ответа представлены в различных единицах измерения, поэтому переведём полученное значение в байты и Кбайты.

(15*2^{16}бит = frac{15*2^{16}}{2^{3}} байт = 15*2^{13} байт)

Ответы 3 и 4 очевидно не подойдут.

(15*2^{13} байт = frac{15*2^{13}}{2^{10}}Кбайт = 15*2^{3}Кбайт = 120 Кбайт)

Получаем, что правильный вариант ответа – первый – 120 Кбайт.

Ответ: 1

Понравилась статья? Поделить с друзьями:
  • Как найти поделочные камни
  • Как профессионально составить презентацию
  • В контакте как найти мой подарок
  • Как найти клад в германии
  • Как найти время сближения в одном направлении