Создание современной музыки

Цифровое аудио

то, что происходит со звуком внутри компьютерных программ
Цифровое аудио – это представление аналогового звука, которое используют компьютеры и различные цифровые устройства для записи и воспроизведения аудио информации. По принципу кадров в кино цифровой аудио сигнал создаётся из серии фрагментов звука, которые воспроизводятся, когда мы нажимаем на кнопку play. Существует масса различных форматов цифрового аудио, они отличаются друг от друга качеством передачи звуковой информации.
ТЕОРИЯ
О Pulse Code Modulation – PCM
Если мы говорим об акустическом звуке или аналоговом сигнале, то речь всегда идёт о распространении звуковых волн в пространстве. В то время как цифровое аудио – это лишь приближенное описание того, что происходит со звуком или должно происходить внутри компьютерных программ или цифровых устройств.

В этой статье пойдёт речь об импульсно кодовой модуляции (Pulse Code Modulation – PCM) – наиболее распространённой системе декодирования цифрового аудио. Помимо PCM, также существуют системы DTS и Dolby Digital, но они в основном применимы в области кино и видео производства. О них мы сегодня говорить не будем.

В импульсно-кодовой модуляции сигнал считывается множество раз в секунду. В каждый момент считывания, записывается и воспроизводится амплитуда звуковой волны. Как было сказано ранее, цифровой сигнал – это лишь приближенная копия аналогового сигнала, так как аналоговая волна не может быть воссоздана идеально точно. Значения каждого фрагмента округляются в сторону ближайшего наиболее точного, затем все фрагменты воспроизводятся, и мы слышим копию оригинального аналогового звука.

"О каких значениях идёт речь?" – спросите вы. Также как аналоговый звук определяется параметрами частоты и амплитуды, цифровое аудио определяется двумя важными значениями: частотой дискретизации (sample rate) и разрядностью или битностью (bit depth). Частота дискретизации означает, сколько раз в секунду считываются фрагменты звукового сигнала, а разрядность – величина динамического диапазона каждого фрагмента звукового сигнала.
Частота Дискретизации
Стандартная частота дискретизации в 44.1 кГц, которая используется для записи аудио на компакт диски (помните такие?), может показаться неким случайно выбранным числом. Но это совсем не так. Эта величина была выбрана исходя из теоремы Котельникова, которая по сути утверждает, что частота дискретизации должна быть более чем в 2 раза выше максимального значения считываемой частоты. Как известно, верхний предел слышимости частотного диапазона человеческого слуха – 20 кГц. Получается, что частота дискретизации должна быть больше 40 кГц. Дополнительные 4.1 кГц добавляются, чтобы избежать искажений, так называемого эффекта наложения (aliasing). В теории 44.1 кГц должно быть вполне достаточно, чтобы с большой точностью передать звуковой сигнал, однако, существуют и более высокие значения.

Например, 48 кГц – стандарт доминирующий в кино и видео производстве. Как в случае с кино, звук синхронизируется с частотой смены кадров равной 24 кадрам в секунду. Не будем вдаваться в подробности, почему именно 24 кадра в секунду были выбраны, проще говоря, это минимальная частота, при которой мы можем видеть плавную приятную для глаз картинку. Частота дискретизации должна соответствовать такой смене кадров. Использование частоты в 44.1 кГц может привести к заметной рассинхронизации картинки и звука. Опять же, исходя из теоремы Котельникова.

Еще более высокие частоты дискретизации отталкиваются от этих двух базовых частот 44.1 или 48 кГц, умножая их с коэффициентами кратными 2. То есть 88.2, 96, 192 кГц – стандарты частот дискретизации всего современного звукового оборудования.
Разрядность
Разрядность или битность аудио файла говорит нам о его динамическом разрешении или, проще говоря, чёткости. Можно провести аналогию с цифровой фотографией: чем выше разрешение фото, тем чётче и качественнее картинка.

Тут важно отметить, что речь не идёт о громкости сигнала, речь идёт скорее о более реалистичном, более чистом и чётком звуке. Более точной передачи звукового сигнала.

Разрядность можно сравнить с текстом в книге. Чем ниже разрядность, тем меньше смысла в тексте. То есть понижение битности приводит к тому, что из слов начинают исчезать некоторые буквы, из предложений – знаки препинания. До поры до времени мы еще сможем уловить смысл текста, но если разрядность продолжит уменьшаться, информация исказится настолько, что мы просто перестанем понимать, о чём идёт речь. Со звуком тоже самое: чем меньше разрядность, тем более искажённо мы слышим звук.
Вот небольшой список наиболее распространённых значений разрядности:

1. 4-bit – максимальный динамический диапазон 24 дБ. Иногда используется для экстремальных "лоу фай" эффектов и нарочитых искажений
2. 8-bit – максимальный динамический диапазон 48 дБ. Использовалось в ранних моделях аудио/видео устройств, таких как первые игровые консоли
3. 12-bit – максимальный динамический диапазон 72 дБ. Первые электронные музыкальные инструменты работали именно в такой разрядности. Пример – легендарный сэмплер EMU Sp-1200
4. 16-bit – максимальный динамический диапазон 96 дБ. Стандарт аудио записи. Именно в такой разрядности записывается звук на компакт диски.
5. 24-bit – максимальный динамический диапазон 145 дБ. В основном используется при профессиональной записи аудио информации.
6. 32, 64-bit – наиболее чистый сигнал с максимальным разрешением, позволяет добиться максимального качества передачи информации. Однако, пока такая разрядность не получила широкого распространения.
Форматы
PCM аудио может быть представлен в виде множества форматов, но все их можно поделить на две категории: без потери качества (lossless) и с потерей качества (lossy). Форматы первой категории прекрасно справляются с передачей звуковой информации в её, можно сказать, первозданном виде. Но аудио записи в таких форматах обычно занимают довольно много места на жёстком диске.

Форматы из категории lossy сжимают (компрессируют) аудио сигнал, что приводит к ухудшению качества звука. То есть качество аудио напрямую зависит от степени сжатия. С другой стороны, подобные записи занимают гораздо меньше места. Вот небольшой список наиболее часто используемых форматов lossless и lossy:

Lossless:

1. WAV (Waveform Audio format). Наиболее распространённый формат нескомпрессированного аудио, используемый в большинстве оборудования для записи и воспроизведения аудио. Broadcast WAV (.BWF) формат, который также может нести информацию о мета данных.
2. AIFF (Audio Interchange File Format). Тоже самое, что WAV, но используемый, в основном, устройствами компании Apple.
3. FLAC (Free Lossless Audio Codec). Формат, который хоть и сжимает аудио информацию, но делает это наиболее щадящим образом практически без потери качества. Минус формата в том, что он поддерживается далеко не всеми аудио устройствами.
4. ALAC (Apple Lossless Audio Codec). Уступающий по качеству FLAC формат, тем не менее поддерживается всеми устройствами Apple.

Lossy

1. Mp3 (Mpeg Audio Layer III) – наиболее популярный формат сжатия аудио информации. Широко использоваться стал по большей части на волне популярности портативных аудио плееров.
2. AAC (Advanced Audio Coding) –альтернатива mp3, несколько превосходящая его по качеству.
3. OGG (Ogg Vorbis) – формат с открытым кодом. Еще одна альтернатива mp3, которая поддерживается и используется Wikipedia, Spotify и некоторыми видео играми.
Понравилась статья? Подписывайтесь на обновление блога, а также следите за нами в соц. сетях.