Как найти глубину кодирования звука в битах - Исправление недочетов и поиск решений вместе с Examum.ru

Звук.

Звук – это звуковая волна, у которой непрерывно меняется амплитуда и частота. При этом амплитуда определяет громкость звука, а частота — его тон. Чем больше амплитуда звуковых колебаний, тем он громче. А частота писка комара больше частоты сигнала автомобиля. Частоту измеряют в Герцах. 1Гц — это одно колебание в секунду.

Кодирование звука.

Компьютер является мощнейшим устройством для обработки различных типов информации, в том числе и звуковой. Но аналоговый звук непригоден для обработки на компьютере, его необходимо преобразовать в цифровой. Для этого используются специальные устройства — аналого-цифровые преобразователи или АЦП. В компьютере роль АЦП выполняет звуковая карта. Каким же образом АЦП преобразует сигнал из аналогового в цифровой вид? Давайте разберемся.

Пусть у нас есть источник звука с частотой 440Гц, пусть это будет гитара. Сначала звук нужно превратить в электрический сигнал. Для этого используем микрофон. На выходе микрофона мы получим электрический сигнал с частотой 440Гц. Графически он выглядит таким образом:

Следующая задача — преобразовать этот сигнал в цифровой вид, то есть в последовательность цифр. Для этого используется временная дискретизация — аналоговый звуковой сигнал разбивается на отдельные маленькие временные участки и для каждого такого участка устанавливается определенная величина интенсивности звука, которая зависит от амплитуды. Другими словами через какие-то промежутки времени мы измеряем уровень аналогового сигнала. Количество таких измерений за одну секунду называется частотой дискретизации. Частота дискретизации измеряется в Герцах. Соответственно, если мы будет измерять наш сигнал 100 раз в секунду, то частота дискретизации будет равна 100Гц.

Вот примеры некоторых используемых частот дискретизации звука:

8 000 Гц — телефон, достаточно для речи;
11 025 Гц;
16 000 Гц;
22 050 Гц — радио;
32 000 Гц;
44 100 Гц — используется в Audio CD;
48 000 Гц — DVD, DAT;
96 000 Гц — DVD-Audio (MLP 5.1);
192 000 Гц — DVD-Audio (MLP 2.0);
2 822 400 Гц — SACD, процесс однобитной дельта-сигма модуляции, известный как DSD — Direct Stream Digital, совместно разработан компаниями Sony и Philips;
5,644,800 Гц — DSD с удвоенной частотой дискретизации, однобитный Direct Stream Digital с частотой дискретизации вдвое больше, чем у SACD. Используется в некоторых профессиональных устройствах записи DSD.

Современные звуковые карты способны оцифровывать звук с частотой дискретизации 96Кгц и даже 192 кГц.

В итоге наш аналоговый сигнал превратится в цифровой, а график станет уже не гладким, а ступенчатым, дискретным:

Глубина кодирования звука — это количество возможных уровней сигнала. Другими словами глубина кодирования это точность измерения сигнала. Глубина кодирования измеряется в битах. Например, если количество возможных уровней сигнала равно 255, то глубина кодирования такого звука 8 бит. 16-битный звук уже позволяет работать с 65536 уровнями сигнала. Современные звуковые карты обеспечивают глубину кодирования в 16 и даже 24 бита, а это возможность кодирования 65536 и 16 777 216 различных уровней громкости соответственно.

Зная глубину кодирования, можно легко узнать количество уровней сигнала цифрового звука. Для этого используем формулу:

N=2ⁱ,

где N — количество уровней сигнала, а i — глубина кодирования.

Например, мы знаем, что глубина кодирования звука 16 бит. Значит количество уровней цифрового сигнала равно 2¹⁶=65536.

Чтобы определить глубину кодирования если известно количество возможных уровней применяют эту же формулу. Например, если известно, что сигнал имеет 256 уровней сигнала, то глубина кодирования составит 8 бит, так как 2⁸=256.

Как понятно из данного вышеприведенного рисунка, чем чаще мы будем измерять уровень сигнала, т.е. чем выше частота дискретизации и чем точнее мы будем его измерять, тем более график цифрового сигнала будет похож на аналоговый график, соответственно, тем выше качество цифрового звука мы получим. И тем больший объем будет иметь файл.

Кроме того, мы рассматривали монофонический (одноканальный) звук, если же звук стереофонический, то размер файла увеличивается в 2 раза, так как он содержит 2 канала.

Рассмотрим пример задачи.

Какой объем будет иметь звуковой монофонический файл содержащий звук, если длительность звука 1 минута, глубина кодирования 8 бит, а частота дискретизации 22050Гц?

Зная частоту дискретизации и длительность звука легко установить количество измерений уровня сигнала за все время. Если частота дискретизации 22050Гц — значит за 1 секунду происходит 22050 измерений, а за минуту таких измерений будет 22050*60=1 323 000.

На одно измерение требуется 8 бит памяти, следовательно на 1 323 000 измерений потребуется 1 323 000*8 = 10 584 000 бит памяти. Разделив полученное число на 8 получим объем файла в байтах — 10584000/8=1 323 000 байт. Далее, разделив полученное число на 1024 получим объем файла в килобайтах — 1 291,9921875 Кбайт. А разделив полученное число еще раз на 1024 и округлив до сотых получим размер файла в мегабайтах — 1 291,9921875/1024=1,26Мбайт.

Ответ: 1,26Мбайт.

Автор:

Источник

Кодирование звука относится к способам сохранения и передачи аудиоданных. В приведенной ниже статье описывается, как работают такие кодировки.

Заметим, что это довольно сложная тема — «Глубина кодирования звука». Определение данного понятия также будет дано в нашей статье. Представленные в статье концепции предназначены только для общего обзора. Раскроем понятия глубины кодирования звука. Некоторые из этих справочных данных могут быть полезны для понимания того, как работает API, а также как формулировать и обрабатывать аудио в ваших приложениях.

Как найти глубину кодирования звука

Аудиоформат не эквивалентен аудиокодированию. Например, популярный формат файла, такой как WAV, определяет формат заголовка аудиофайла, но сам по себе не является кодировкой звука. WAV-аудиофайлы часто, но не всегда используют линейную кодировку PCM.

В свою очередь, FLAC является как форматом файла, так и кодировкой, что иногда приводит к некоторой путанице. В пределах Speech API FLAC глубина кодирования звука — это единственная кодировка, которая требует, чтобы аудиоданные включали заголовок. Все другие кодировки указывают беззвучные аудиоданные. Когда мы ссылаемся на FLAC в Speech API, мы всегда ссылаемся на кодек. Когда мы ссылаемся на формат файла FLAC, мы будем использовать формат «.FLAC».

Вы не обязаны указывать кодировку и частоту дискретизации для файлов WAV или FLAC. Если этот параметр опущен, API облачной речи автоматически определяет кодировку и частоту дискретизации для файлов WAV или FLAC на основе заголовка файла. Если вы укажете значение кодировки или частоты дискретизации, которое не соответствует значению в заголовке файла, API облачной речи вернет ошибку.

Глубина кодирования звука — это что такое?

Аудио состоит из осциллограмм, состоящих из интерполяции волн разных частот и амплитуд. Чтобы представить эти формы сигналов в цифровых средах, сигналы должны быть отбракованы со скоростью, которая может представлять звуки самой высокой частоты, которые вы хотите воспроизвести. Для них также необходимо хранить достаточную глубину бит для представления правильной амплитуды (громкость и мягкость) осциллограмм по образцу звука.

Способность устройства звуковой обработки воссоздавать частоты известна как его частотная характеристика, а способность создавать надлежащую громкость и мягкость известна как динамический диапазон. Вместе эти термины часто называют верностью звукового устройства. Глубина кодирования звука — это средство, с помощью которого можно восстановить звук, используя эти два основных принципа, а также возможность эффективно хранить и передавать такие данные.

Частота выборки

Звук существует как аналоговая волновая форма. Сегмент цифрового звука аппроксимирует эту аналоговую волну и сэмплирует ее амплитуду с достаточно высокой скоростью, чтобы имитировать собственные частоты волны. Частота дискретизации цифрового аудиосигнала определяет количество выборок, взятых из исходного материала аудио (в секунду). Высокая частота дискретизации увеличивает способность цифрового звука точно представлять высокие частоты.

Как следствие теоремы Найквиста-Шеннона, обычно нужно пробовать хотя бы вдвое большую частоту любой звуковой волны, которую необходимо записать в цифровом виде. Например, для представления звука в диапазоне человеческого слуха (20-20000 Гц), цифровой аудиоформат должен отображать не менее 40000 раз в секунду (что является причиной того, что звук CD использует частоту дискретизации 44100 Гц).

Бит глубины

Глубина кодирования звука — это влияние на динамический диапазон заданного образца звука. Более высокая битовая глубина позволяет представлять более точные амплитуды. Если у вас много громких и мягких звуков в одном и том же звуковом образце, вам понадобится больше бит, чтобы правильно передавать эти звуки.

Более высокие битовые глубины также уменьшают соотношение «сигнал/шум» в образцах аудио. Если глубина кодирования звука составляет 16 битов, музыкальный звук CD передается с использованием данных величин. Некоторые методы сжатия могут компенсировать меньшие битовые глубины, но они, как правило, являются потерями. DVD Audio использует 24 бит глубины, в то время как в большинстве телефонов глубина кодирования звука составляет 8 бит.

Несжатый звук

Большая часть обработки цифрового звука использует эти два метода (частоту дискретизации и глубину бит) для простого хранения аудиоданных. Одна из самых популярных технологий цифрового звука (популяризированная при использовании компакт-диска) известна как модуляция импульсного кода (или PCM). Аудио выбирается с установленными интервалами, и амплитуда дискретизированной волны в этой точке сохраняется как цифровое значение с использованием битовой глубины образца.

Линейный PCM (который указывает, что амплитудный отклик является линейно однородным по выборке) является стандартом, используемым на компакт-дисках и в кодировке LINEAR16 Speech API. Оба кодирования создают несжатый поток байтов, соответствующий непосредственно аудиоданным, и оба стандарта содержат 16 бит глубины. Линейный PCM использует частоту дискретизации 44 100 Гц на компакт-дисках, что подходит для перекомпоновки музыки. Однако частота дискретизации 16000 Гц более подходит для рекомпозиции речи.

Линейный PCM (LINEAR16) является примером несжатого звука, поскольку цифровые данные хранятся аналогичным образом. При чтении одноканального потока байтов, закодированного с использованием Linear PCM, вы можете подсчитать каждые 16 бит (2 байта) для получения другого значения амплитуды сигнала. Практически все устройства могут манипулировать такими цифровыми данными изначально — можно обрезать аудиофайлы Linear PCM с помощью текстового редактора, но несжатый звук — не самый эффективный способ транспортировки или хранения цифрового звука. По этой причине большинство аудио использует цифровые методы сжатия.

Сжатый звук

Аудиоданные, как и все данные, часто сжимаются, что облегчает их хранение и транспортировку. Сжатие в аудиокодировании может происходить либо без потерь, либо с потерями. Сжатие без потерь можно распаковать, чтобы восстановить цифровые данные в исходную форму. Сжатие обязательно удаляет некоторую информацию во время процедуры декомпрессии и параметризуется, чтобы указать степень толерантности к технике сжатия для удаления данных.

Без потерь

Без потерь сжимаются цифровые аудиозаписи, используя сложные перестановки сохраненных данных, что не приводит к ухудшению качества исходного цифрового образца. При сжатии без потерь при распаковке данных в исходную цифровую форму информация не будет потеряна.

Итак, почему методы сжатия без потерь иногда имеют параметры оптимизации? Эти параметры часто обрабатывают размер файла для времени декомпрессии. Например, FLAC использует параметр уровня сжатия от 0 (самый быстрый) до 8 (наименьший размер файла). Сжатие FLAC более высокого уровня не потеряет никакой информации по сравнению со сжатием более низкого уровня. Вместо этого алгоритму сжатия просто нужно будет затрачивать больше вычислительной энергии при построении или деконструировании оригинального цифрового звука.

API Speech поддерживает два кодирования без потерь: FLAC и LINEAR16. Технически LINEAR16 не является «сжатием без потерь», поскольку в первую очередь не задействовано сжатие. Если размер файла или передача данных важны для вас, выберите FLAC как ваш вариант кодирования звука.

Потеря компрессии

Сжатие аудиоданных устраняет или уменьшает некоторые типы информации при построении сжатых данных. Speech API поддерживает несколько форматов с потерями, хотя их следует избегать, поскольку потеря данных может повлиять на точность распознавания.

Популярный MP3-кодек является примером метода кодирования с потерями. Все методы сжатия MP3 удаляют звук извне обычного аудиодиапазона человека и регулируют уровень сжатия, регулируя эффективную скорость передачи данных кодека MP3 или количество бит в секунду для сохранения даты звука.

Например, стерео CD с использованием линейного PCM из 16 бит имеет эффективную скорость передачи битов. Формула глубины кодирования звука:

441000 * 2 канала * 16 бит = 1411200 бит в секунду (бит/с) = 1411 Кбит/с

Например, сжатие MP3 удаляет такие цифровые данные, используя скорость передачи данных, такие как 320 кбит/с, 128 кбит/с или 96 кбит/с, что приводит к ухудшению качества звука. MP3 также поддерживает переменные скорости передачи битов, которые могут дополнительно сжать аудио. Оба метода теряют информацию и могут влиять на качество. С уверенностью можно сказать, что большинство людей могут определить разницу между кодированной MP3-музыкой 96 кбит/с или 128 Кбит/с.

Другие формы сжатия

MULAW — это 8-битное кодирование PCM, где амплитуда выборки модулируется логарифмически, а не линейно. В результате uLaw уменьшает эффективный динамический диапазон сжатого звука. Хотя uLaw был введен специально для оптимизации кодирования речи в отличие от других типов аудио, 16-битный LINEAR16 (несжатый PCM) по-прежнему намного превосходит 8-битный сжатый звук uLaw.

AMR и AMR_WB модулируют кодированный аудиокасс, вводя переменную скорость передачи битов в исходный звуковой образец.

Хотя Speech API поддерживает несколько форматов с потерями, вам следует избегать их, если у вас есть контроль над исходным аудио. Хотя удаление таких данных посредством сжатия с потерями может не оказывать заметного влияния на звук, слышимый человеческим ухом, потеря таких данных для механизма распознавания речи может значительно ухудшить точность.

Источник

На этой странице вы узнаете:

Чем звуковая “лесенка” удобнее звуковой волны?
От чего зависит качество вашей любимой музыки и звук при звонке?
Для чего нужны каналы записи?

Дискретизация по времени и уровни громкости

Звук — это волна, высота которой непрерывно изменяется во времени.

В случае с радугой — если взять на ней две разные точки, они будут иметь разные оттенки, пусть и неразличимые человеческим глазом. В случае со звуком — две любые точки на волне будут разной высоты, пусть человеческое ухо и не почувствует разницы.

Поэтому для кодирования звукового файла также необходимо применять дискретизацию (подробнее о которой можно прочитать в статье «Дискретное представление информации»), причем не одну.

Дискретизация по громкости превратит волну звука в “лесенку” — вместо постоянно меняющейся высоты волны мы будем иметь конкретные уровни громкости, которые будут приближенно равны высоте волны в разные моменты времени.

Каждый уровень кодируется определенным количеством бит, которое определяется глубиной кодирования (битовой глубиной/разрешением). Чем она больше, тем больше у нас будет уровней громкости.

Зависимость количества уровней громкости N от глубины кодирования i будет
N = 2 ^ i.

Дискретизация по времени определяет, сколько именно раз в секунду будет производиться измерение текущего уровня громкости. Количество измерений в одной секунде — частота дискретизации, измеряется в Гц, а в реальности, когда ее значение становится очень большим — в кГц (1 кГц = 1000 Гц).

Чем звуковая “лесенка” удобнее звуковой волны?

После проведения дискретизации по времени и по громкости вся звуковая волна превратится в “лесенку”:
— каждая “ступенька” определяет громкость звука в каждый отдельный момент времени (возможная высота ступеньки определяется глубиной кодирования звука);
— каждая секунда аудиозаписи будет разбита на конкретное число ступенек, определяемое частотой дискретизации.

И в таком формате кодирование звука не представляет собой никаких проблем, так как мы можем кодировать отдельные “ступеньки”.

Например, следующая звуковая волна была разбита с глубиной кодирования, равной 3 битам (поэтому уровней громкости ровно 2 ^ 3 = 8 и каждый закодирован кодом, длиной в 3 символа) и частотой дискретизации 4 Гц.

Чем больше будут значения глубины кодирования и частоты дискретизации, тем больше “лесенка” будет похожа на оригинальную волну.

Если поднять значения из примера выше всего в несколько раз, результат уже будет гораздо более похожим на оригинальную волну:

В реальности эти параметры могут достигать еще больших значений:

минимальным значением частоты дискретизации для передачи человеческой речи считается 8000 Гц, оно используется в телефонной связи, а в студиях звукозаписи может принимать значение 192 000 Гц и даже больше;

достаточной глубиной кодирования звука считается значение 16 бит, при котором появляется уже 2 ^ 16 = 65536 уровней громкости, но для профессиональных работ это значение может доходить и до 32 бит.

Количество каналов. Формула объема звука

Нельзя также забывать про такую характеристику звука, как объемность:

при прослушивании музыки в наушниках иногда можно услышать, что какие-то музыкальные инструменты громче звучат с одной стороны, а другие — с другой;

в кинотеатре в масштабных сценах с большим количеством событий можно услышать, что действия, происходящие на экране справа, звучат громче справа, а происходящие слева — громче слева. А иногда и сзади что-нибудь произойдет.

Для чего нужны каналы записи?

Объемность звуку придает количество каналов записи, когда в одном файле находится несколько звуковых волн, которые воспроизводятся одновременно. Программы воспроизведения обрабатывают их и выдают звук там, где он должен был быть.

Например, чтобы озвучить падение двух камней с двух разных сторон, нужно иметь оба звука и воспроизводить их вместе, но с разных колонок или через разные наушники.

Так как каждый новый канал добавляет в аудиофайл буквально новые звуковые волны, каждую из них также придется закодировать по тем же параметрам, поэтому количество каналов прямо пропорционально будет увеличивать объем файла.

Количество каналов обозначается специальными словами:

моно — 1 канал;
стерео — 2 канала;
квадро — 4 канала.

Осталось вспомнить, что у записи звука есть еще и продолжительность, и мы имеем все данные, чтобы найти вес звукового файла:

глубина кодирования i — вес одного уровня звука;
частота дискретизации F — количество кодируемых уровней громкости в 1 секунде;
продолжительность t;
количество каналов записи N.

Полный вес аудиофайла V будет равен произведению всех этих параметров: V = F * B * t * N.

Фактчек

Глубина кодирования определяет количество бит, выделяемое на хранение одного уровня громкости, на которые будет разделена звуковая волна по высоте;
Частота дискретизации обозначает дискретизацию звука по времени — сколько уровней громкости будет закодировано в 1 секунде;
Количество каналов определяет объемность звука, добавляя в 1 файл несколько звуковых волн, поэтому прямо пропорционально увеличивает вес всего файла.

Проверь себя

Задание 1.
Количество уровней громкости зависит от…

дискретизации по времени
глубины кодирования
количества каналов
частоты дискретизации

Задание 2.
Что означает формулировка “запись в формате квадро”?

При записи использовалась глубина кодирования 4 бит
Частота дискретизации равна 2 Гц
Количество каналов записи равно 2
Количество каналов записи равно 4

Задание 3.
В студии звукозаписи производится одноканальная (моно) запись длиной 3 минуты 25 секунд и с частотой дискретизации 35 кГц. Определите и запишите в ответ максимальную битовую глубину, которая может быть использована при записи музыкального фрагмента, если объём файла не превышает 30 Мбайт.

Задание 4.
Для записи песни использовалась четырехканальная (квадро) аудиодорожка. Ее сохранили на компьютер, с объемом 10 Мбайт. Тот же файл был записан еще раз в формате двухканальной (стерео) записи с разрешением в 3 раза выше и частотой дискретизации в 1,5 раза меньше, чем в первый раз. Определите количество мегабайт, которое занимает файл при повторной записи.

Ответы: 1. — 2; 2. — 4; 3. — 1; 4. — 4.

Источник

Частота дискретизации. Для записи аналогового звука и г го преобразования в цифровую форму используется микрофон, подключенный к звуковой плате. Качество полученного цифрового звука зависит от количества измерений уровня громкости звука в единицу времени, т. е. частоты дискретизации. Чем большее количество измерений производится за I секунду (чем больше частота дискретизации), тем точнее «лесенка» цифрового звукового сигнала повторяет кривую диалогового сигнала.

Частота дискретизации звука — это количество измерений громкости звука за одну секунду.

Частота дискретизации звука может лежать в диапазоне от 8000 до 48 000 измерений громкости звука за одну секунду.

Глубина кодирования звука. Каждой «ступеньке» присваивается определенное значение уровня громкости звука. Уровни громкости звука можно рассматривать как набор возможных состояний N, для кодирования которых необходимо определенное количество информации I, которое называется глубиной кодирования звука.

Глубина кодирования звука — это количество информации, которое необходимо для кодирования дискретных уровней громкости цифрового звука.

Если известна глубина кодирования, то количество уровней громкости цифрового звука можно рассчитать по формуле N = 2^I. Пусть глубина кодирования звука составляет 16 битов, тогда количество уровней громкости звука равно:

N = 2^I = 2¹⁶ = 65 536.

В процессе кодирования каждому уровню громкости звука присваивается свой 16-битовый двоичный код, наименьшему уровню звука будет соответствовать код 0000000000000000, а наибольшему — 1111111111111111.

Качество оцифрованного звука. Чем больше частота и глубина дискретизации звука, тем более качественным будет звучание оцифрованного звука. Самое низкое качество оцифрованного звука, соответствующее качеству телефонной связи, получается при частоте дискретизации 8000 раз в секунду, глубине дискретизации 8 битов и записи одной звуковой дорожки (режим «моно»). Самое высокое качество оцифрованного звука, соответствующее качеству аудио-CD, достигается при частоте дискретизации 48 000 раз в секунду, глубине дискретизации 16 битов и записи двух звуковых дорожек (режим «стерео»).

Необходимо помнить, что чем выше качество цифрового звука, тем больше информационный объем звукового файла. Можно оценить информационный объем цифрового стереозвукового файла длительностью звучания 1 секунда при среднем качестве звука (16 битов, 24 000 измерений в секунду). Для этого глубину кодирования необходимо умножить на количество измерений в 1 секунду й умножить на 2 (стереозвук):

16 бит × 24 000 × 2 = 768 000 бит = 96 000 байт = 93,75 Кбайт.

Звуковые редакторы. Звуковые редакторы позволяют не только записывать и воспроизводить звук, но и редактировать его. Оцифрованный звук представляется в звуковых редакторах в наглядной форме, поэтому операции копирования, перемещения и удаления частей звуковой дорожки можно легко осуществлять с помощью мыши. Кроме того, можно накладывать звуковые дорожки друг на друга (микшировать звуки) и применять различные акустические эффекты (эхо, воспроизведение в обратном направлении и др.).

Звуковые редакторы позволяют изменять качество цифрового звука и объем звукового файла путем изменения частоты дискретизации и глубины кодирования. Оцифрованный звук можно сохранять без сжатия в звуковых файлах в универсальном формате WAV или в формате со сжатием МР3.

При сохранении звука в форматах со сжатием отбрасываются «избыточные» для человеческого восприятия звуковые частоты с малой интенсивностью, совпадающие по времени со звуковыми частотами с большой интенсивностью. Применение такого формата позволяет сжимать звуковые файлы в десятки раз, однако приводит к необратимой потере информации (файлы не могут быть восстановлены в первоначальном виде).

Контрольные вопросы

1. Как частота дискретизации и глубина кодирования влияют на качество цифрового звука?

Задания для самостоятельного выполнения

1. Задание с выборочным ответом. Звуковая плата производит двоичное кодирование аналогового звукового сигнала. Какое количество информации необходимо для кодирования каждого из 65 536 возможных уровней интенсивности сигнала?

1) 16 битов; 2) 256 битов; 3) 1 бит; 4) 8 битов.

2. Задание с развернутым ответом. Оценить информационный объем цифровых звуковых файлов длительностью 10 секунд при глубине кодирования и частоте дискретизации звукового сигнала, обеспечивающих минимальное и максимальное качество звука:

а) моно, 8 битов, 8000 измерений в секунду;

б) стерео, 16 битов, 48 000 измерений в секунду.

3. Задание с развернутым ответом. Определить длительность звукового файла, который уместится на дискете 3,5″ (учтите, что для хранения данных на такой дискете выделяется 2847 секторов объемом 512 байтов каждый):

а) при низком качестве звука: моно, 8 битов, 8000 измерений в секунду;

б) при высоком качестве звука: стерео, 16 битов, 48 000 измерений в секунду.

Источник

1. Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой. Для человека звук тем громче, чем больше амплитуда сигнала, и тем выше тон, чем больше частота сигнала. Непрерывный сигнал не несет в себе информации, поэтому он должен быть превращен в последовательность двоичных нулей и единиц — двоичный (цифровой) код.

2. Оцифровку звука выполняет специальное устройство на звуковой плате. Называется оно аналого-цифровой преобразователь (АЦП). Обратный процесс — воспроизведение закодированного звука производится с помощью цифро-аналогового преобразователя (ЦАП). Подробнее рассмотрим эти процессы.

В процессе кодирования непрерывного звукового сигнала производится его дискретизация по времени, или, как говорят, «временная дискретизация». Звуковая волна разбивается на отдельные маленькие временные участки и для каждого участка устанавливается определенная величина амплитуды. Данный метод называется импульсно-амплитудной модуляцией РСМ (Pulse Code Modulation). Таким образом, гладкая кривая заменяется на последовательность «ступенек». Каждой «ступеньке» присваивается значение громкости звука (1, 2, 3 и т.д.). Чем больше «ступенек», тем большее количество уровней громкости будет выделено в процессе кодирования, и тем большее количество информации будет нести значение каждого уровня и более качественным будет звучание.

2. Характеристики оцифрованного звука.

Качество звука зависит от двух характеристик — глубины кодирования звука и частоты дискретизации. Рассмотрим эти характеристики.

Глубина кодирования звука (I) — это количество бит, используемое для кодирования различных уровней сигнала или состояний. Тогда общее количество таких состояний или уровней (N) можно вычислить по формуле:

N = 2^I.

Современные звуковые карты обеспечивают 16-битную глубину кодирования звука, и тогда общее количество различных уровней будет:

N = 216 = 65536.

Частота дискретизации (М) — это количество измерений уровня звукового сигнала в единицу времени. Эта характеристика показывает качество звучания и точность процедуры двоичного кодирования. Измеряется в герцах (Гц). Одно измерение за одну секунду соответствует частоте 1 Гц, 1000 измерений за одну секунду — 1 килогерц (кГц). Частота дискретизации звукового сигнала может принимать значения от 8 до 48 кГц. При частоте 8 кГц качество дискретизированного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц — качеству звучания аудио-CD.

Высокое качество звучания достигается при частоте дискретизации 44,1 кГц и глубины кодирования звука, равной 16 бит. Для мрачного, приглушенного звука характерны следующие параметры: частота дискретизации — 11 кГц, глубина кодирования — 8 бит.

Параметр Качество звука	Глубина кодирования	Частота дискретизации
Радиотрансляция	8 бит	До 8 кГц
Среднее качество	8 бит или 16 бит	8-48 кГц
Звучание CD-диска	16 бит	До 48 кГц

Для того, чтобы найти объем звуковой информации, необходимо воспользоваться следующей формулой: V = M*I*t, где М — частота дискретизации (в Гц), I — глубина кодирования (в битах), t — время звучания (в секундах).

Пример

Звук воспроизводится в течение 10 секунд при частоте дискретизации 22,05 кГц и глубине звука 8 бит. Определить его размер (в байтах). Решение:

М = 22,05*1000 = 220500 Гц; I = 8/8=1 байт;

Т = 10 секунд; V = 220500*10*1= 220500 байт.

Ответ: 220500 байт.

№1

Определить объем памяти для хранения моноаудиофайла, время звучания которого составляет пять минут при частоте дискретизации 44 кГц и .глубине кодирования 16 бит.

Решение:

V = MIt = 44000Гц*16*5 = 3520000 бит = 430 Кбайт.

Ответ: 430 Кбайт.

№2

Какой должна быть частота дискретизации и глубина кодирования для ‘записи звуковой информации длительностью 2 минуты, если в распоряжении пользователя имеется память объемом 5,1 Мбайта.

Решение:

M*I=V/t;

M*I = 5,1 *1024*1024*8/2/60 = 356515 (Гц*бит).

Вариант 1

356515 (Гц*бит) = 22,05 кГц*16 бит.

Ответ: 22,05 кГц и 16 бит.

Вариант 2

356515 (Гц*бит) = 44,1 кГц*8 бит.

Ответ: 44,1 кГц и 8 бит.

№3

Объем свободной памяти на диске — 5,25 Мбайта, глубина кодирования — 8. Звуковая информация записана с частотой дискретизации 44,1 кГц. Какова длительность звучания такой информации?

Решение:

t= V/M/I = 5,25* 1024*1024*8/44100/8 = 124,8 сек.

Ответ: 124,8 секунды.

№4

Одна минута записи звуковой информации занимает на диске 1,3 Мбайта, глубина кодирования равна 16. С какой частотой дискретизации записан звук?

Решение:

М = V/I/t = 1,3*1024*8/16/60 =11359Гц = 11 кГц.

Ответ: 11 кГц.

№5

Какой объем памяти требуется для хранения звуковой информации высокого качества при условии, что время звучания составляет 3 минуты.

Решение:

Высокое качество записи звука соответствует частоте дискретизации 44,01 кГц и глубине кодирования 16 бит. Поэтому:

V= MIt = 44,01*1000*16*300 = 211248000 бит=25,1 Мбайт.

Ответ: 25,1 Мбайт.

Источник