Качество звучания МР3Рго можно назвать субъективно очень хорошим даже при скорости потока 64 кбит/с, при этом субъективно несложные композиции при такой скорости воспринимаются не хуже, чем МР3128 кбит/с. Однако, необходимо учитывать тот факт, что такое звучание достигается искусственным путем, и, что слышимый сигнал представляет собой уже не столько оригинал, сколько синтезированную копию оригинала.

MPEG -2 это расширение MPEG-1 в сторону многоканального звука. Следствием совместимости MPEG-2 с MPEG-1 в части кодирования звука стало полное пользование трехуровневой системы, разработанной в MPEG-1 для обработки звуковых данных кодерами стандарта MPEG-2. Различия между стандартами начинаются при переходе от двухканального звука, принятого за основу в MPEG-1, к многоканальному звуку, поддерживаемому в MPEG-2.

MPEG-2 специфицирует различия режима передачи многоканального звука, в том числе пятиканальный формат, семиканальный звук с двумя дополнительными громкоговорителями, применяемыми в кинотеатрах с очень широким экраном, расширения этих форматов с низкочастотным каналом. Соответствующее расположение громкоговорителей показано в таблице 4.1. В данном случае в числителе дроби указывается число фронтальных каналов, в знаменателе – число каналов, излучаемых сзади.

Одной из разновидностей многоканального звука является многоязычное звуковое сопровождение. Оно может осуществляться либо передачей отдельного цифрового потока для каждого языка, либо добавлением нескольких (до 7) языковых каналов со скоростью 64 кбит/с к многоканальному потоку кбит/с. Возможна передача дополнительных звуковых каналов для людей с ухудшением зрения и слуха (с описанием сцены в первом случае и отдельным каналом диалогов во втором).

Как же обеспечивается совместимость этих сложных многокомпонентных, сигналов с относительно простым декодером MPEG-1? В кодере MPEG-2 сначала с помощью матрицы формируются комбинированный двухканальный сигнал, совместимый со стереосигналом MPEG-1, и набор вспомогательных сигналов, не совместимых с ним и служащих для восстановления многоканального сигнала в декодере MPEG-2 (рис. 4.7, а). При кодировании двухканальный сигнал укладывается в структуру пакетированного элементарного потока звука совместимого с MPEG-1, и может прочитываться соответствующим декодером. Остальные компоненты после кодирования размещаются в других структурных единицах цифрового потока и доступны только декодеру MPEG-2.

Учитывая широкое распространение в мире системы Dolby Pro Logic и совместимость ее с обычным стереоканалом, разработчики звукового стандарта MPEG-2 заложили в алгоритм формирование стереосигнала в таком виде, как его формирует указанная система. Владельцы декодера Dolby Pro Logic могут теперь получить многоканальный сигнал двумя способами: либо непосредственно с выхода декодера MPEG-2, либо подав комбинированный стереосигнал (stereo downmix) с выхода более простого декодера MPEG-1 на вход декодера Pro Logic, который выделит из него многоканальный сигнал (рис.4.7, б). Соответствующий интерфейс определен в стандарте IEC61937, он основан на линейной передаче звуковых данных с ИКМ и скоростью до 1536 кбит/с.

Система улучшенного кодирования звука ААС. Одной из лучших современных систем сжатия звука признана система ААС (Advanced Audio Coding) усовершенствованная система кодирования звука), специфицированная в седьмой части стандарта ISO/EEC 13818. В отличие от других методов сжатия звуко данных, принятых в MPEG-2, она не обладает свойством обратной совместимости - декодеры MPEG-1 не могут декодировать сигнал ААС. По своей эффективности ААС вдвое превосходит Уровень II и в 1,4 раза Уровень III стандарта MPEG-1. Высококачественное воспроизведение звука достигается при скорости цифрового потока 96 кбит/с. В стандарте поддерживается широкий набор параметров и возможностей: частоты дискретизации от 8 до 96 кГц моно - и стереосигналы, три профиля - Основной (Main), Упрощенный (LC - Low complexity), Масштабируемый (SSR - Scalable Sampling Rate). Одновременно может быть описано до 16 звуковых программ, состоящих из большого числа сигналов звука и данных (до 48 основных, 15 низкочастотных, 15 многоязычных каналов, 15 потоков данных).

Как и самый сложный из предшествующих, Уровень III из MPEG-1/2 ААС использует все средства цифрового сжатия - полосное кодирование, неравномерное квантование, кодирование кодом Хаффмана, итерационные алгоритмы распределения битов. Однако он улучшает алгоритм Уровня Ш во многих деталях и использует новые эффективные средства кодирования для улучшения качества звучания при очень низких скоростях.

Основные улучшения можно свести к следующим моментам.

■ Улучшено разрешение по частоте благодаря использованию 1024 частотных полос по сравнению с 576 в алгоритме При этом короткие блоки имеют длину всего 256 отсчетов, что обеспечивает эффективную обработку быстрых изменений звукового сигнала. Переключение производится по результатам анализа поведения входного сигнала во времени.

■ В Основном профиле применена оптимальная схема предсказания назад, обеспечивающая более высокую эффективность отработки изменений основного тона.

■ Применен более гибкий алгоритм кодирования в режиме joint stereo, как в

режиме кодирования по интенсивности, так и в режиме «сумма-разность».

■ Применен улучшенный код Хаффмана, кодирование четверками частотных линий применяется очень часто, что дополнительно сокращает расход битов.

Структурная схема звукового кодера формата ААС Основного профиля приведена на рис. 4.8. Новым элементом по сравнению с Уровнем III можно считать функцию управления шумами во временной области (TNS - Temporal Noise Shaping), позволяющую формировать огибающую шума во временной области по предсказанию в частотной области. Устройство осуществляет фильтрацию сигнала с выхода ДКП набором из нескольких переключаемых Фильтров и квантование полученных групп отсчетов. Коэффициенты квантования передаются в общем цифровом потоке декодеру, который перераспределяет огибающую шума в реконструируемом сигнале с учетом спектрального распределения энергии сигнала. Это полезно при быстрых изменениях уровня звукового сигнала, когда кодер не успевает переключить блок фильтров на обработку коротких блоков и возникают искажения в виде пред-эхо

На данный момент существуют пять разновидностей формата ААС:

1. Homeboy AAC;

2. AT&T а2Ь ААС;

3. 3.LiquifierPROAAC;

4. Astrid/Quartex ААС;

5. AACPlus.

Все эти модификации несовместимы между собой, имеют собственные кодеры/ декодеры и неодинаковы по качеству. В целях ознакомления и сравнения этих модификаций между собой рассмотрим все представленные форматы этого семейства.

■ Homeboy ААС. Это самый первый общедоступный кодер, использующий алгоритмы ААС. К сожалению, в процессе модификации авторами были допущены ряд ошибок, что привело к выпадению частот и искажениям, легко слышимыми даже неопытным ухом. Однако и он имел ряд преимуществ. Так, в комплекте с кодеком поставлялся самый первый проигрыватель ААС файлов BitAAC, отличающийся высокой скоростью и приятным интерфейсом, но главное — впервые при использовании алгоритмов ААС было достигнуто качество MP3 128 кбит/с на гораздо более низких скоростях.

Сейчас этот формат уже практически не развивается, последняя версия кодека вышла довольно давно. Но до сих пор появляются бесплатные, так называемые freeware кодеры ААС, которые на самом деле являются разнообразными интерфейсами к кодеку Homeboy ААС.

■ AT&T а2Ь ААС. Компания AT&T являлась одним из крупнейших инвесторов, вложивших свои деньги в разработку алгоритмов MPEG-2 ААС. Вначале алгоритмы сжатия звука интересовали компанию AT&T только как средство для компрессии записанной голосовой информации, передаваемой затем по цифровым телефонным сетям. Но, оценив затем все те выгоды, которые сулил быстрый выход на рынок новейших средств компрессии аудиоданных, особенно в области коммерческого распространения музыки по сети Internet, компания AT&T забрала причитающиеся ей, как инвестору исходные коды формата MPEG-2 ААС и пустилась в самостоятельные разработки.

С этой целью было создано отдельное подразделение компании, которое занималось разработкой собственного формата компрессии аудиоданных, базирующегося на алгоритмах MPEG-2 ААС, и его дальнейшим продвижением. Этот формат получил название а2Ь.

В формат ААС был внесен целый ряд изменений. Так, основной упор был сделан на улучшение качества, но как следствие, при этом уменьшилась степень компрессии аудиоданных. Можно сказать, что а2Ь - это формат с самой низкой степенью сжатия из всего семейства ААС. Так, по степени сжатия а2Ь ААС превосходит МРЗ, но на 15...20% уступает другим форматам семейства ААС. Не удалось добиться и какого-то исключительного качества. Качество звучания а2Ь со скоростью 96 кбит/с существенно лучше, чем качество МРЗ со скоростью 128 кбит/с, но однозначно хуже, чем у форматов Liquid Pro ААС.

Помимо изменения соотношения размер/качество, в формат а2Ь были внесены такие новшества, как возможность включения текста песни и изображений (например, обложка альбома, фотография исполнителя и т. д.) внутрь аудиофайла. Впервые также появилась возможность создавать самовоспроизводящиеся аудиокомпозиции, т. е. аудиофайл преобразуется в запускаемый ехефайл, в который включается необходимый для воспроизведения декодер, при этом размер файла возрастает примерно на 170кбайт. Не все эти нововведения являются уникальными. Так возможность вставлять текст и картинки в аудиофайл присутствует так же в формате Liquid Pro AAC.

Но отсутствие общедоступного кодека и ничтожно малое количество аудиокомпозиций в формате а2Ь, по сравнению с МРЗ, делают этот формат совершенно не перспективным, особенно на фоне многочисленных конкурентов, продукты которых обладают гораздо более высокими показателями.

■ Liquid Pro AAC. Молодая малоизвестная фирма Liquid Audio в тесной кооперации с институтом Fraunchofer сумела создать формат аудиокомпрессии, который во всех тонкостях следовал алгоритмам MPEG-2 ААС и, помимо этого, содержал ряд нововведений. В результате этого сотрудничества появился формат аудиосжатия Liquid Pro AAC, файлы которого имеют расширение. LQT. Этот формат обладает самым высоким качеством из всех кодеков, базирующихся на алгоритмах MPEG-2 ААС, а также самым лучшим соотношением размер/качество. Данный формат непрерывно развивается. На текущий момент вышли уже пятые версии кодера и плеера, что является своеобразным рекордом для кодеков семейства ААС. Все дефекты звучания и ошибки программ, обнаруженные пользователями немедленно исправляются в новых версиях. Помимо этого компания Liquid Audio непрерывно работает над улучшением кодека и уменьшением размера файлов LQT.

В тестировании, организованном MPEG, было предложено отличить на слух оригинальную CD-композицию и ту же композицию сжатую Liquid Pro ААС со скоростью 256 кбит/с и 80% экспертов не смогли найти разницы. Liquid Pro AAC со скоростью 96 кбит/с, звучит качественнее других ААС кодеков с той же скоростью и однозначно лучше чем МРЗ со скоростью 128 кбит/с.

■ Astrid/Quartex AAC. Этот стандарт, в отличие от всех остальных, создан не большими компаниями, а одним единственным программистом. Никому не известный программист сумел сделать кодек, превосходящий по качеству практически все коммерческие ААС кодеки, за исключением разве что Liquid Pro ААС. 12 сентября 1998 года на некоторых форумах появилось приглашение протестировать новый кодек, находящийся в сети. Уже тогда добровольных тестеров удивила очень высокая степень сжатия при отличном качестве звука, которую предоставлял новоявленный формат. Этот формат содержит все слагаемые успеха: бесплатный общедоступный кодер; такой же бесплатный общедоступный плеер; высокая степень сжатия и отличное качество звука. И действительно, хотя Astrid/Quartex AAC самый молодой из всех ААС кодеков, однако уже добился популярности несравнимой со всеми остальными. Конечно, и у этого кодека есть недостатки. Так, последняя, на текущий момент, версия Astrid/Quartex AAC 0.2 поддерживает только три скорости 64, 96 и 128 кбит/с.

■ AACPlus. 9 октября 2002 года компания Coding Tech анонсировала выход нового кодека AACPlus. AACPlus основан на совершенно аналогичной МР3 Proидее использования технологии SBR. Разница заключается лишь в том, что в МР3Рго основной поток кодируется в МРЗ (MPEG-1 Layer III), а в AACPlus - в AAC (MPEG-2/4 ААС).

В качестве средств компрессии звука в MPEG-4 (ISO/IEC 14496-3) используется комплекс нескольких стандартов кодирования звука: улучшенный алгоритм MPEG-2 ААС, алгоритм TwinVQ, а также алгоритмы кодирования речи HVXC и CELP. Кроме того, MPEG-4 предусматривает множество механизмов обеспечения масштабируемости и предсказания. Однако в целом, стандарт MPEG-4 ААС, предусматривающий правила и алгоритмы кодирования звука, является, в общем, продолжением MPEG-2 AAC. MPEG-4 ААС стандартизует следующие типы объектов (именно так называются профили в MPEG-4 ААС): MPEG-4 AAC LC (Low Complexity), MPEG-4 AAC Main, MPEG-4 AAC SSR (Scalable Sampling Rate), MPEG-4 AAC LTP (Long Term Prediction). Как видно, первые три позаимствованы у MPEG-2 ААС, четвертый же является новшеством. LTP основан на методах предсказания сигнала и является более сложным алгоритмом, нежели остальные.

MPEG-4 - аудио предлагает широкий перечень приложений, которые покрывают область от простой речи до высококачественного многоканального звука, и от естественных до синтетических звуков.

В частности, он поддерживает высокоэффективную презентацию следующих звуковых объектов.

Речь. Кодирование речи может производиться при скоростях обмена от 2 до 24 кбит/с. Низкие скорости передачи, такие как 1,2 кбит/с, также возможны, когда разрешена переменная скорость кодирования. Для коммуникационных приложений возможны малые задержки. Когда используются средства HVXC (Harmonic Vector eXcitation Coding - кодирование с гармоническим возбуждением вектора), скорость и высота тона могут модифицироваться пользователем при воспроизведении. Если используются средства CELP (Code Excited Linear Predictive - линейное предсказание, стимулируемое кодом), изменение скорости воспроизведения может быть реализовано с помощью дополнительного средства.

■ Синтезированная речь. TTS-кодировщики (Text-to-speech — текст в голос) с масштабируемой скоростью в диапазоне от 200 бит/с до 1,2 кбит/с, которые позволяют использовать текст или текст с интонационными параметрами (вариация тона, длительность фонемы, и т. д.), в качестве исходных данных для генерации синтетической речи. При этом выполняются следующие функции:

■ синтез речи с использованием интонации оригинальной речи, управление синхронизацией губ и фонемной информации;

■ трюковые возможности: пауза, возобновление, переход вперед/назад;

■ международный язык и поддержка диалектов для текста (т. е. можно сигнализировать в двоичном потоке, какой язык и диалект следует использовать);

■ поддержка интернациональных символов для фонем;

■ поддержка спецификации возраста, пола, темпа речи говорящего;

■ поддержка передачи меток анимационных параметров лица FAP (facial animation parameter — параметры анимации лица).

Общие аудиосигналы. Поддержка общей кодировки аудиопотоков от низких скоростей до высококачественных. Рабочий диапазон начинается от 6 кбит/с при полосе ниже 4 кГц и распространяется до широковещательного качества передачи звукового сигнала для моно - и многоканальных приложений.

Синтезированный звук. Поддержка синтезированного звука осуществляется декодером структурированного звука (Structured Audio Decoder), который позволяет использовать управление музыкальными инструментами с привлечением специального языка описания.

Синтетический звук с ограниченной сложностью. Реализуется структурируемым аудиодекодером, который позволяет работать со стандартными волновыми форматами.

Примерами дополнительной функциональности является возможность управления скоростью обмена и масштабируемость в отношении потоков данных, полосы пропускания, вероятности ошибок, сложности, и т. д. как это определено ниже.

Возможность работы при изменении скорости передачи допускает изменение временного масштаба без изменения шага при выполнении процесса декодирования. Это может быть, например, использовано для реализации функции «быстро вперед» (поиск в базе данных) или для адаптации длины аудио-последовательности до заданного значения и т. д.

Функция изменения шага позволяет варьировать шаг без изменения временного масштаба в процессе кодирования или декодирования. Это может быть использовано, например, для изменения голоса или для приложений типа караоке. Эта техника используется в методиках параметрического и структурированного кодирования звука.

Изменение скорости передачи допускает анализ потока данных с разбивкой на субпотоки меньшей скорости, которые могут быть декодированы в осмысленный сигнал. Анализ потока данных может осуществляться при передаче или в декодере.

Масштабируемость полосы пропускания является частным случаем масштабируемости скорости передачи данных, когда часть потока данных, представляющая часть частотного спектра, может быть отброшена при передаче или декодировании.

Масштабируемость сложности кодировщика позволяет кодировщикам различной сложности генерировать корректные и осмысленные потоки данных.

Масштабируемость сложности декодера позволяет заданную скорость потока данных дешифровать посредством декодеров с различным уровнем сложности. Качество звука, вообще говоря, связано со сложностью используемого кодировщика и декодера.

Звуковые эффекты предоставляют возможность обрабатывать декодированные аудиосигналы с полной временной точностью с целью достижения эффектов смешения, реверберации, создания объемного звучания и т. д.

Натуральный звук. MPEG-4 стандартизирует кодирование естественного звука при скоростях передачи от 2 до 64 кбит/с. Когда допускается переменная скорость кодирования, допускается работа и при низких скоростях вплоть до 1,2 кбит/с. Использование стандарта MPEG-2 ААС в рамках набора средств MPEG-4 гарантирует сжатие аудиоданных при любых скоростях вплоть до самых высоких. Для того чтобы достичь высокого качества звука во всем диапазоне скоростей передачи и в то же время обеспечить дополнительную функциональность, техники кодирования голоса и общего звука интегрированы в одну систему:

■ кодирование голоса при скоростях между 2 и 24 кбит/с поддерживается системой кодирования HVXC, для рекомендуемых скоростей 2...4 кбит/с; CELP для рабочих скоростей 4...24 кбит/с. Кроме того, HVXC может работать при скоростях вплоть до 1,2 кбит/с в режиме с переменной скоростью. При кодировании CELP используются две частоты дискретизации — 8 и 16 кГц, чтобы поддержать узкополосную и широкополосную передачу голоса, соответственно. Подвергнуты верификации следующие рабочие режимы: HVXC при 2 и 4 кбит/с, узкополосный CELP при 6, 8,3 , и 12 кбит/с, и широкополосный CELP при 18 кбит/с;

■ . для обычного аудиокодирования при скоростях порядка 6 кбит/с и выше, применены методики преобразующего кодирования, в частности TwinVQ и ААС. Аудиосигналы в этой области обычно дискретизируется с частотой 8 кГц.

Метод кодирования MPEG-4 CELP. Метод кодирования MPEG-4 CELP предназначен для обработки речевых сигналов. На практике применяются в основном три основных класса кодеров: кодеры формы, вокодеры и гибридные кодеры.

Кодеры формы характеризуются способностью сохранять основную форму речевого сигнала. К кодерам формы относятся кодеры с импульсно кодовой модуляцией (ИКМ), кодеры с дифференциальной ИКМ (ДИКМ), адаптивной дифференциальной ИКМ (АДИКМ) и др. Системы передачи с подобным типом кодеров обеспечивают хорошее качество воспроизведения речевых сигналов (стандартная полоса частот которых составляет 300...3400 Гц) и более широкополосных звуковых сигналов. Однако, эти кодеры малоэффективны с точки зрения снижения скоростей передачи цифровых сигналов.

Вокодеры (от английских слов «voice» - голос и «coder» - кодирующее устройство) обеспечивают значительно большее снижение скоростей передачи речевых сигналов. Сжатие на передающей стороне производится в анализаторе, выделяющем из речевого сигнала медленно меняющиеся составляющие, которые передаются по каналу связи в виде кодовых комбинаций. На приемной стороне с помощью местных источников сигналов, управляемых с использованием принятой информации, синтезируется речевой сигнал.

Работа вокодеров основана на моделировании человеческой речи с учетом ее характерных особенностей. Вокодер преобразует входной сигнал в некий другой, похожий на исходный. При этом измеряемые характеристики используются для подстройки параметров вокодера в соответствии с принятой моделью речевого сигнала. Именно эти параметры и передаются на декодер приемника, который по ним восстанавливает (синтезирует) речевой сигнал. При этом оценка качества воспроизведения речи (разборчивость, естественность, узнаваемость и др.) производится с применением субъективно-статистических экспертиз.

Наибольшее распространение получили параметрические вокодеры, в которых из речевого сигнала выделяют два типа параметров:

■ параметры, характеризующие огибающую спектра речевого сигнала (фильтровую функцию);

■ параметры, характеризующие источник речевых колебаний (генераторную функцию): частоту основного тона, ее изменения во времени, моменты появления и исчезновения основного тона, шумового сигнала и др.

В вокодерах с линейным предсказанием (LPC — Linear Predictive Coding) при анализе речевого сигнала в передающем устройстве определяются коэффициенты предсказания, а в приемном устройстве на основе этих коэффициентов с помощью рекурсивного цифрового фильтра синтезируется эквивалент голосового тракта.

При кодировании с линейным предсказанием моделируются различные параметры человеческой речи, которые передаются вместо отсчетов речевого сигнала или их разностей. Это позволяет существенно снизить скорость передачи речевого сигнала по сравнению с методами ИКМ, ДИКМ, АДИКМ.

При кодировании речевых сигналов по методу LPC обычно применяют метод анализа через синтез (Analysis - by - Synthesis (AbS)).

Метод кодирования MPEG-4 HVXC. MPEG-4 HVXC обеспечивает различные категории устойчивости к ошибкам и может применяться в каналах передачи, подверженных влиянию ошибок. Объект HVXC, устойчивый к ошибкам (ER) поддерживается средствами параметрического кодирования голоса (ER HVXC), которые предоставляют режимы с фиксированными скоростями обмена (2...4 кбит/с) и режим с переменной скоростью передачи (более 2 кбит/с, более 4 кбит/с), в рамках масштабируемой и не масштабируемой схем. В версии 1 HVXC, режим с переменной скоростью передачи поддерживается максимум 2 кбит/с, а режим с переменной скоростью передачи в версии ER HVXC 2 дополнительно поддерживается максимум 4 кбит/с. ER HVXC обеспечивает качество передачи голоса международных линий (100...3800Гц) при частоте дискретизации 8 кГц. Когда разрешен режим с переменной скоростью передачи, возможна работа при низкой средней скорости передачи. Речь, кодированная в режиме с переменной скоростью передачи при среднем потоке 1,5 кбит/с, и типовом среднем значении 3 кбит/с имеет то же качество, что и для 2 кбит/с при фиксированной скорости и 4 кбит/с, соответственно. Функциональность изменения тона и скорости при декодировании поддерживается для всех режимов. Кодировщик речи ER HVXC ориентирован на приложения от мобильной и спутниковой связи до IP-телефонии и голосовых баз данных.

Аудиокодирование с малыми задержками. В то время как универсальный аудиокодировщик MPEG-4 очень эффективен при кодировании аудиосигналов при низких скоростях передачи, он имеет алгоритмическую задержку кодирования/декодирования, достигающую нескольких сот миллисекунд и является таким образом, неподходящим для приложений, требующих малых задержек кодирования, таких как двунаправленные коммуникации реального времени Для обычного кодировщика звука, работающего при частоте дискретизации 24 кГц и скорости передачи 24 кбит/с, алгоритмическая задержка кодирования составляет 110 мс плюс до 210 мс дополнительно, в случае использования буфера. Чтобы кодировать обычные аудиосигналы с алгоритмической задержкой, не превышающей 20 мс, MPEG-4 специфицирует кодировщик, который использует модификацию алгоритма MPEG-2/4 ААС.

По сравнению со схемами кодирования речи, этот кодировщик позволяет сжимать обычные типы аудиосигналов, включая музыку, при достаточно низких задержках. Он работает вплоть до частот дискретизации 48 кГц и использует длину кадров 512 или 480 отсчетов, по сравнению с 1024 или 960 отсчетами, используемых в стандарте MPEG-2/4 ААС. Размер окна, используемого при анализе и синтезе блока фильтров, уменьшен в два раза. Чтобы уменьшить искажения в случае переходных сигналов используется переключение размера окна. Для непереходных частей сигнала используется окно синусоидальной формы, в то время как в случае переходных сигналов используется, так называемое, окно с низким перекрытием. Использование буфера битов минимизируется, чтобы сократить задержку. В крайнем случае, такой буфер вообще не используется.

Масштабируемость скорости передачи. Масштабируемость скорости передачи, известная как встроенное кодирование, является крайне желательной функцией. Обычный аудиокодировщик поддерживает масштабируемость с большими шагами, где базовый уровень потока данных может комбинироваться с одним или более улучшенных уровней потока данных, чтобы можно было работать с высокими скоростями и, таким образом, получить лучшее качество звука. В типовой конфигурации может использоваться базовый уровень 24 кбит/с и два по 16 кбит/с, позволяя декодирование с полной скоростью 24 кбит/с (моно), 40 кбит/с (стерео), и 56 кбит/с (стерео). Из-за побочной информации, передаваемой на каждом уровне, малые уровни-добавки поддерживаются не очень эффективно. Чтобы получить эффективную масштабируемость с малыми шагами для стандартного аудиокодировщика, имеется средство поби­тового арифметического кодирования BSAC (Bit-Sliced Arithmetic Coding). Это средство используется в комбинации с ААС-кодированием и замещает бесшумное кодирование спектральных данных и масштабных коэффициентов.

BSAC предоставляет масштабируемость шагами в 1 кбит/с на аудиоканал, т. е. шагами по 2 кбит/с для стереосигнала. Используется один базовый поток (уровень) данных и много небольших потоков улучшения. Базовый уровень содержит общую информацию вида, специфическую информацию первого уровня и аудиоданные первого уровня. Потоки улучшения содержат только специфические данные вида и аудиоданные соответствующего слоя. Чтобы получить масштабируемость с небольшими шагами, используется побитовая схема квантования спектральных данных. Сначала преобразуемые спектральные величины группируются в частотные диапазоны. Каждая из этих групп содержит оцифрованные спектральные величины в их двоичном представлении. Затем биты группы обрабатываются порциями согласно их значимости. Таким образом, сначала обрабатываются все наиболее значимые биты (MSB) оцифрованных величин в группе и т. д. Эти группы битов затем кодируются с привлечением арифметической схемы кодирования, чтобы получить энтропийные коды с минимальной избыточностью. Представлены различные модели арифметического кодирования, чтобы перекрыть различные статистические особенности группировок бит.

Параметрическое кодирование звука. Средства параметрического аудиокодирования сочетают в себе низкую скорость кодирования обычных аудиосигналов с возможностью модификации скорости воспроизведения или шага при декодировании без блока обработки эффектов. Ожидается улучшенная эффективность кодирования для использования объектов, базирующихся на кодировании, которое допускает выбор и/или переключение между разными техниками кодирования.

Параметрическое аудиокодирование использует для кодирования общих аудиосигналов технику HDLN (Harmonic and Individual Lines plus Noise) при скоростях 4 кбит/с, а выше применяется параметрическое представление аудиосигналов. Основной идеей этой методики является разложение входного сигнала на аудиообъекты, которые описываются соответствующими моделями источника и представляются модельными параметрами. В кодировщике HELN используются модели объектов для синусоид, гармонических тонов и шума.

Из-за очень низкой скорости передачи могут быть переданы только параметры для ограниченного числа объектов. Следовательно, модель восприятия устроена так, чтобы отбирать те объекты, которые наиболее важны для качества приема сигнала.

В HILN параметры частоты и амплитуды оцифровываются согласно с «заметной разницей», известной из психоакустики. Спектральный конверт шума и гармонический тон описан с использованием моделирования LPC. Корреляция между параметрами одного кадра и между последовательными кадрами анализируется методом предсказания параметров. Оцифрованные параметры подвергаются энтропийному кодированию, после чего эти данные вводятся в общий информационный поток.

Очень интересное свойство этой схемы параметрического кодирования происходит из того факта, что сигнал описан через параметры частоты и амплитуды. Эта презентация сигнала позволяет изменять скорость и высоту звука простой вариацией параметров декодера. Параметрический аудиокодировщик HTLN может быть объединен с параметрическим кодировщиком речи MPEG-4 HVXC, что позволит получить интегрированный параметрический кодировщик, покрывающий широкий диапазон сигналов и скоростей передачи. Этот интегрированный кодировщик поддерживает регулировку скорости и тона. Используя в кодировщике средство классификации речи/музыки, можно автоматически выбрать HVXC для сигналов речи и HELN для музыкальных сигналов.

Синтетический звук. MPEG-4 определяет декодеры для генерирования звука на основе нескольких видов структурированного ввода. Текстовый ввод преобразуется в декодере TTS (Text-To-Speech), в то время как прочие звуки, включая музыку, могут синтезироваться стандартным путем. Синтетическая музыка может транспортироваться при крайне низких потоках данных.

Декодеры TTS (Text To Speech) работают при скоростях передачи от 200 бит/с до 1,2 кбит/с, что позволяет использовать их при синтезе речи в качестве входных данных текст или текст с периодическими параметрами (тональная конструкция, длительность фонемы, и т. д.). Такие декодеры поддерживают генерацию параметров, которые могут быть использованы для синхронизации с анимацией лица, при осуществлении перевода с другого языка и для работы с международными символами фонем. Дополнительная разметка используется для передачи в тексте управляющей информации, которая переадресуется другим компонентам для обеспечения синхронизации с текстом.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4