Итак, МР3 — потоковый формат, а это, в свою очередь, означает, что звуковая информация при кодировании разбивается на фреймы, то есть равные по продолжительности участки. Особенность фреймов заключается в том, что все они взаимно независимы, так как каждый фрейм имеет свои собственные параметры, кодируется отдельно и имеет заголовок. В процессе воспроизведения последовательность декодированных фреймов как раз таки и обеспечивает непрерывное звучание записанного звука.
Что хорошего в этом подходе? Во-первых, можно осуществлять перемотку; это обусловлено возможностью легкого и быстрого перехода к абсолютно любому фрейму, с месторасположения которого и будет воспроизводиться файл. Во-вторых, подобная структура позволяет достигать непрерывности воспроизведения, при этом не слишком «напрягая» оперативную память или дисковый кэш проигрывателя: сначала загружаются лишь несколько фреймов, а потом, в ходе проигрывания, все остальные.
При высоком качестве МР3 — а это битрейт 320 Кбит/с — для кодирования фреймов применяются исключительно математические алгоритмы сжатия. Стоит заметить, что качество при этом нисколько не страдает, однако размер уменьшается максимум в четыре раза. Но уже при уменьшении полосы пропускания (битрейта) до 256 Кбит/с и ниже начинают работать алгоритмы удаления «ненужных» звуков, что основано на особенности восприятия аудиоинформации человеческим ухом, или, если говорить более научно, на «психоакустической модели». Сам процесс удаления ненужных звуков называется квантованием. И надо сказать, квантование становится жестче с уменьшением битрейта, то есть налицо обратно пропорциональная зависимость.
Ну а каковы критерии отбора звуков на «нужность» или «ненужность»? Все просто. Большинство кодеков (совокупность алгоритмов кодирования и декодирования звука) отбрасывают звуки, находящиеся за границей порога слышимости человека Причем так сложилось, что значение этого порога составляет 16 кГц. Но эта величина, скажем прямо, условна, поскольку люди по своим физиологическим особенностям очень отличаются друг от друга. Да и потом, необходимо учитывать, что у многих слуховой порог может превышать эту среднестатистическую величину, ведь, например, у молодежи порог слышимости значительно выше, чем у пожилых людей. Таким образом, удаление частот выше 16 кГц частенько и является причиной того, что временами конечный результат воспроизведения музыкального файла не удовлетворяет запросы пользователей. Это абсолютно неприемлемо для высоких битрейтов, претендующих на постоянное качество, но, кстати, вполне уместно для низких, где качество приносится в жертву размеру.
Еще одним критерием, который служит для выявления «ненужности» тех или иных звуков, является такая особенность слуха человека, как неспособность различать мощность сигналов, лежащих ниже определенного уровня, особенно если он меняется в зависимости от разных частотных диапазонов. Когда применятся психоакустическая модель, МР3З-кодек автоматически удаляет маломощные, практически неслышимые частоты. К слову, здесь снова возникает проблема «неодинаковости» личностей: к примеру, некоторые люди, способные различать именно «выброшенные» частоты, постоянно жалуются на плохое качество звучания сжатого файла, в то время как все остальные вообще ничего не замечают
Теперь мы подошли к главной особенности, описывающей психоакустическую модель кодирования формата МР3, - это так называемый эффект маскирования. Во многом благодаря именно этому эффекту возможно столь сильное сжатие исходных аудиоданных. Суть маскирования заключается в следующем. Слабый сигнал одного диапазона частот, как правило, маскируется более мощным сигналом соседнего диапазона, если таковой присутствует в аудиозаписи, или, на крайний случай, мощным сигналом предыдущего фрейма. В итоге имеет место «временное оглушение», так как такой сильный сигнал вызывает временное понижение чувствительности уха к сигналу текущего фрейма. Величина маскирующего эффекта, создаваемого сигналом соседних диапазонов и сигналом предыдущего фрейма, определяется конкретно для каждого звукового диапазона. Если маскирующий сигнал превышает мощность сигнала текущего диапазона, последний не кодируется вовсе, что обеспечивает психоакустической модели возможность удалить часть данных из этого фрейма. Что же касается оставшихся данных каждого диапазона, то для них определяется количество битов на фрейм, которыми можно пожертвовать, чтобы потери от дополнительного квантования были ниже величины маскирующего эффекта. Говоря проще, звук, кодированный при низких битрейтах, отличается заметной нечеткостью и глухостью. Это происходит потому, что при потере всего одного бита информации в общее звучание добавляется шум квантования значительной величины.
Все вышеописанные ухищрения в сумме имеют свое название — адаптивное кодирование. То есть на основе того, что большая часть людей не обладает уникальным слухом, эта технология позволяет существенно уменьшить размер кодируемого файла благодаря «обрезанию» наименее значимых с точки зрения слухового восприятия деталей звучания. (Кстати, адаптивное кодирование — это отличительная черта МР3, которая не присутствует в других форматах.)
Однако же, как всегда бывает в подобных случаях, «в бочке меда не обошлось без ложки дегтя». Некоторые слушатели тонко чувствуют усечение ненужных частот в формате МР3, и усеченная музыка кажется им некачественной. Это чувство неполноценности композиции, кстати, во многом оправданно, так как «обрезание» тех или иных, даже самых незначительных, деталей ведет к изменению эмоциональной окраски звучания, придает или лишает ее таких эффектов, как ощущение «кристальной» чистоты звука (в той мере, в которой она присутствует в тех же CD). И хорошо еще, что большинство потребителей все же не различают таких изменений. Хотя на то и был ведь расчет разработчиков.
Запись бывает двух видов — аналоговая и цифровая. Первая представляет собой электрический волновой сигнал, а вторая — какой-то набор цифр, хранящийся в памяти того или иного устройства. Для того чтобы преобразовать аналоговый сигнал в цифровой, используется устройство, которое так и называется — аналогово-цифровой преобразователь (АЦП). Основными параметрами, которые характеризуют цифровую запись, являются частота дискретизации и разрядность. Частота дискретизации — это то количество раз в секунду, с которым АЦП будет сравнивать и строить цифрокую картину описания аналогового сигнала. Чем это значение выше, тем точнее цифровая запись соответствует исходному аналоговому сигналу. Привычным значением является 44,1 кГц (то есть сравнение точности оцифровки происходит 44 100 раз в секунду).
Другой важный параметр — это разрядность. Она соответствует объему памяти, который отводится на одно сравнение в частоте дискретизации. Если это значение равняется, например, 8, то это значит, что на сравнение с аналоговым сигналом отводится 8 бит памяти. Это число соответсхвует музыкальной палитре из 256 звуков.
MP3 — самый популярный формат сжатия на сегодняшний день. Принцип его действия заключается в создании иллюзии качественного звучания, «обмане» человеческого уха. После некоторых исследований выяснилось, что человеческому слуху свойственно адаптироваться к появлению новых звуков, что выражается в повышении порога слышимости. Поэтому одни звуки способны делать субъективно неслышимыми другие. Вот и в этом формате часть звуков, которые, как считает соответствующая теория, делаются неслышимыми, просто убираются из общего звучания. После этого получившийся «полуфабрикат» кодируется по специальному методу. (Более подробно алгоритм кодирования этого формата рассмотрен в разделе «Кодирование музыкального файла».)
Формат ААС изначально позиционировался разработчиками в качестве преемника МР3, так как обладал по сравнению с последним рядом несомненных достоинств. Как и в МР3, в основе алгоритма ААС лежит психоакустическая модель кодирования, то есть при сжатии какая-то часть звукового спектра удаляется. При этом алгоритм ААС содержит большое количество усовершенствований, направленных именно на улучшение качества выходного аудиосигнала. В ААС используются другие алгоритмы преобразований, улучшенные обработчики шумов и новый банк фильтров. При этом ААС обладает высочайшим качеством звучания и очень хорошей степенью компрессии аудиокомпозиций. И вполне возможно, что этот формат заменил бы устаревающий МРЗ, если бы не одно но… Сразу же после окончания работ над ААС некоторые из компаний-соучредителей забрали причитающиеся им исходные коды стандарта и на их базе создали собственные форматы, коммерческие и несовместимые друг с другом. Вот таким образом и появилась та мешанина несовместимых форматов, которая называется «семейство форматов аудиосжатия ААС».