Синтез с множественным управлением (Score Driven Synthesis). Средства структурированного звука декодируют входные данные и формируют выходной звуковой сигнал. Это декодирование управляется специальным языком синтеза, называемым SAOL (Structured Audio Orchestra Language), который является частью стандарта MPEG-4. Этот язык используется для определения «оркестра», созданного из «инструментов» (загруженных в терминал потоком данных), которые формируют и обрабатывают управляющую информацию. Инструмент представляет собой маленькую сеть примитивов обработки сигналов, которые могут эмулировать некоторые специфические звуки, которые могут производить настоящие акустические инструменты. Сеть обработки сигналов может быть реализована аппаратно или программно и включать как генерацию, так и обработку звуков, а также манипуляцию записанными ранее звуками.
MPEG-4 не стандартизует «единственный метод» синтеза, а скорее описывает путь описания методов синтеза. Любой сегодняшний или будущий метод синтеза звука может быть описан в SAOL, включая таблицу длин волн, FM, физическое моделирование и гранулярный синтез, а также непараметрические гибриды этих методов.
Управление синтезом выполняется путем включения «примитивов» (score) или «скриптов») в поток данных. Примитив представляет собой набор последовательных команд, которые включают различные инструменты в определенное время и добавляют их сигнал в общий музыкальный поток или формируют заданные звуковые эффекты. Описание примитива, записанное на языке SASL (Structured Audio Score Language), может использоваться для генерации новых звуков, а также включать дополнительную управляющую информацию для модификации существующих звуков. Это позволяет композитору осуществлять тонкое управление синтезированными звуками. Для процессов синтеза, которые не требуют такого тонкого контроля, для управления оркестром может также использоваться протокол МIDI (цифровой интерфейс музыкальных инструментов).
Тщательный контроль в сочетании с описанием специализированных инструментов позволяет генерировать звуки, начиная с простых аудиоэффектов, таких как звуки шагов или закрытия двери, и заканчивая естественными звуками, такими как шум дождя или музыка, исполняемая на определенном инструменте или синтетическая музыка с полным набором разнообразных эффектов.
Для терминалов с меньшей функциональностью, и для приложений, которые не требуют такого сложного синтеза, стандартизован также «формат волновой таблицы» («wavetable bank format»). Используя этот формат, можно загрузить звуковые образцы для использования при синтезе, а также выполнить простую обработку, такую как фильтрация, реверберация, и ввод эффекта хора. В этом случае вычислительная сложность необходимого процесса декодирования может быть точно определена из наблюдения потока данных, что невозможно при использовании SAOL.
Аудио MPEG-7 FCD имеет пять технологий: структура описания звука, которая включает в себя масштабируемые последовательности, дескрипторы нижнего уровня и униформные сегменты тишины; средства описания тембра музыкального инструмента; средства распознавания звука; средства описания голосового материала и средства описания мелодии.
Описание системы аудио MPEG-7. Аудиоструктура содержит средства нижнего уровня, которые обеспечивают основы для формирования звуковых приложений высокого уровня. Предоставляя общую платформу структуры описаний, MPEG-7 Audio устанавливает базис для совместимости всех приложений, которые могут быть созданы в рамках данной системы.
Существует два способа описания звуковых характеристик нижнего уровня. Один предполагает дискретизацию сигнала на регулярной основе, другой. может использовать сегменты для пометки сходных и отличных областей для заданного звукового отрывка. Обе эти возможности реализованы в двух типах дескрипторов нижнего уровня (один - для скалярных величин, таких как мощность или частота, другой — для векторов, таких как спектры), которые создают совместимый интерфейс. Любой дескриптор, воспринимающий эти типы может быть проиллюстрирован примерами, описывающими сегмент одной результирующей величиной или последовательностью результатов стробирования, как этого требует приложение.
Величины, полученные в результате стробирования, сами могут подвергаться последующей обработке с привлечением другого унифицированного интерфейса: они могут образовать масштабируемые ряды (Scalable Series). Дерево шкал может также хранить различные сводные значения, такие как минимальное, максимальное значение дескриптора и его дисперсию.
Звуковые дескрипторы. Звуковые дескрипторы нижнего уровня имеют особую важность при описании звука. Существует семнадцать временных и пространственных дескрипторов, которые могут использоваться в самых разных приложениях. Они могут быть грубо поделены на следующие группы:
■ базовая — мгновенные значения уровня волнового сигнала и мощности;
■ базовая спектральная - частотный спектр мощностей, спектральные характеристики, включая среднее значение, спектральная полоса и спектральная однородность;
■ параметры сигнала - фундаментальная частота квазипериодических сигналов гармоничность сигналов;
■ временная группа по тембру - временной центроид;
■ спектральная группа по тембру - специфические спектральные актеристики в линейном пространстве частот (включая спектральный центроид и спектральные свойства), специфические для гармонических частей сигналов (включая спектральное смещение и спектральную ширину);
■ представления спектрального базиса - характеристики, используемые для распознавания звука.
Каждый из них может использоваться для описания сегмента с результирующим значением, которое применяется для всего сегмента или для последовательности результатов дискретизации. Временная группа по тембру (Timbral Temporal) является исключением, так как ее значения применимы только к сегменту, как целому.
В то время как звуковые дескрипторы нижнего уровня вообще могут служить для многих возможных приложений, дескриптор однородности спектра поддерживает аппроксимацию сложных звуковых сигналов. Приложения включают в себя голосовую идентификацию.
Кроме того, очень простым, но полезным средством является дескриптор тишины. Он использует простую семантику «тишины» (т. е. отсутствие значимого звука) для аудиосегмента. Такой дескриптор может служить для целей дальнейшей сегментации звукового потока.
Средства описания звука верхнего уровня (D и DS). Четыре набора средств описания звука, которые приблизительно представляют области приложения, интегрированы в FCD: распознавание звука, тембр музыкального инструмента, разговорный материал и мелодическая линия.
Средства описания тембра музыкальных инструментов. Дескрипторы тембра служат для описания характеристик восприятия звуков. Тембр в настоящее время определен в литературе как характеристика восприятия, которая заставляет два звука, имеющих одну высоту и громкость, восприниматься по-разному. Целью средства описания тембра является представление этих характеристик восприятия сокращенным набором дескрипторов. Дескрипторы относятся к таким понятиям как «атака», «яркость» или «богатство» звука.
В рамках четырех возможных классов звуков музыкальных инструментов, два класса хорошо детализированы, и являются центральным объектом экспериментального исследования. В FCD представляются гармонические, когерентные непрерывные звуки и прерывистые, ударные звуки. Дескриптор тембра для непрерывных гармонических звуков объединяет спектральные дескрипторы тембра с временным дескриптором (log attack). Дескриптор ударных инструментов комбинирует временные дескрипторы тембра с дескриптором спектрального центроида. Сравнение описаний, использующих один из наборов Дескрипторов, выполняется с привлечением метрики масштабируемого расстояния.
Средства распознавания звука. Схемы дескрипторов и описаний распознавания звука, представляют собой наборы средств для индексирования и категорирования звуков, с немедленным использованием для звуковых эффектов. Добавлена также поддержка автоматической идентификации звука и индексация. Это сделано для систематики звуковых классов и средств для спецификации онтологии устройств распознавания звука. Такие устройства могут использоваться для автоматической индексации сегментов звуковых треков.
Средства распознавания используют в качестве основы спектральные базисные дескрипторы низкого уровня. Эти базисные функции далее сегментируются и преобразуются в последовательность состояний, которые заключают в себя статистическую модель, такую как смешанная модель Маркова или Гаусса. Эта модель может зависеть от своего собственного представления, иметь метку, ассоциированную с семантикой исходного звука, и/или с другими моделями для того, чтобы разбить на категории новые входные звуковые сигналы для системы распознавания.
Средства описания содержимого сказанного (Spoken Content). Средства описания Spoken Content позволяют детальное описание произнесенных слов в пределах аудиопотока. Учитывая тот факт, что сегодняшнее автоматическое распознавание речи ASR-технологий (Automatic Speech Recognition) имеет свои ограничения, и что всегда можно столкнуться с высказыванием, которого нет в словаре, средства описания Spoken Content жертвует некоторой компактностью ради надежности поиска. Чтобы этого добиться, средства отображают выходной поток и то, что в норме может быть видно в качестве текущего результата автоматического распознавания речи ASR. Средства могут использоваться для двух широких классов сценария поиска: индексирование и выделение аудиопотока, а также индексирование мультимедийных объектов аннотированных голосом
Средства описания Spoken Content поделены на два широких функциональных блока: сетка, которая представляет декодирование, выполненное сиcтемой ASR, и заголовок, который содержит информацию об узнанных собеседниках и о самой системе распознавания. Сетка состоит из комбинаций слов голосовых записей для каждого собеседника в аудио потоке. Комбинируя эти сетки, можно облегчить проблему со словами, отсутствующими в словаре, и поиск может быть успешным, даже когда распознавание исходного слова невозможно.
Средства описания мелодии. DS (схема описания) мелодического очертания (Melody Contour) является компактным представлением информации о мелодии, которая позволяет эффективно и надежно контролировать мелодическую идентичность. Например, в запросах с помощью наигрывания. DS мелодического очертания используется пятиступенчатый контур (представляющий интервал между смежными нотами), в котором интервалы дискретизированы. DS мелодического очертания (Melody Contour DS) предоставляет также базовую информацию ритмики путем запоминания частот, ближайших к каждой из нот. Это может существенно увеличить точность проверки соответствия запросу.
Для приложений, требующих большей описательной точности или реконструкции заданной мелодии, DS-мелодии поддерживает расширенный набор дескрипторов и высокую точность кодирования интервалов. Вместо привязки к одному из пяти уровней, в точных измерителях используется существенно больше уровней между нотами (100 и более). Точная информация о ритмике получается путем кодирования логарифмического отношения разностей между началами нот. При этом способ аналогичен способу, используемому для кодирования уровней сигнала.
Для обеспечения правильного декодирования компрессированных сигналов кроме кодовых слов отсчетов звуковых сигналов или соответствующих им коэффициентов МДКП (основная аудиоинформация), к декодеру передается также и определенная дополнительная информация. После кодирования цифровые потоки основной и дополнительной информации форматируются. При этом наиболее важная часть цифровых данных подвергается помехоустойчивому кодированию.
Метод сжатия звука Ogg Vorbis
Сразу после своего появления формат МРЗ приобрел бешеную популярность у пользователей персонального компьютера. Подумать только, теперь на аудиодиск размером 650 Мб можно поместить в 10 раз больше звуковой информации, при этом сохранив приемлемое качество. Созданные таким образом файлы можно без проблем пересылать через Интернет, использовать в переносных устройствах, собирать музыкальные коллекции. Но не все было так безоблачно. Появившись, он практически сразу стал причиной многочисленных скандалов, споров, преследований.
Все началось с того, что компании Fraunhofer Institute и Thomson Multimedia, имеющие патент на данный формат, объявили, что он, увы, совсем не бесплатный, и потребовали некоторых отчислений за каждый кодек. Но и этого мало: постоянно в Сети появляются сообщения о том, что условия лицензирования данного продукта могут в корне измениться, и теперь придется платить и за каждый распространенный экземпляр декодера (проигрывателя). Вдоволь наслушавшись споров и возмущений общественности, остановились (пока) на отчислениях только с коммерческих программ и бытовых устройств, но кто знает, что нас ждет впереди. С другой стороны, в странах, особо тщательно следящих за соблюдением патентов, могут возникнуть проблемы при его использовании, именно поэтому компания Red Hat, находящаяся в США, отказалась от включения в последних версиях своего дистрибутива средств работы с Данным форматом, опасаясь возможных проблем.
Следующая проблема заключается в том, что в самом формате не была заложена возможность препятствовать нарушению авторских прав. Даже всемогущая Microsoft не удержалась и на всякий случай изобрела быстренько свой собственный алгоритм сжатия звуковых файлов (он нем мы поговорим позже). Не остался в стороне и мир
OpenSource - в июле 2002 года миру был официально представлен оригинальный формат сжатия звука, именуемый Ogg Vorbis. Спонсором проекта на первом этапе была компания iCast, транслировавшая и Распространявшая музыку через Интернет. В случае успеха и перехода на новый формат она могла бы сэкономить на отчислениях, но к сожалению, до выхода своего детища компания разорилась.
Итак, что же представляет собой новый формат? OggVorbis — это самый молодой формат из всех конкурентов МРЗ разработан группой Xiphophorus и является всего лишь небольшой частью из мультимедиа проекта OggSquish, в котором будет помимо форматов аудиосжатия еще и кодеки видеокомпрессии. Впрочем, это все в будущем, а пока OggVorbis - единственный реально существующий формат из этого семейства, да и то в виде бета-версии кодека.
OggVorbis принадлежит к тому же типу форматов аудиосжатия, что и МРЗ, AAC, VQF, РАС, QDesign AEFF и WMA, т. е. к форматам сжатия с потерями. Психоакустическая модель, используемая в OggVorbis по принципам действия близка к МРЗ и иже с ними, но и только — математическая обработка и практическая реализация этой модели в корне отличается, что позволяет авторам объявить свой формат совершенно независимым от всех предшественников.
Главное неоспоримое преимущество формата OggVorbis — это его полная открытость и бесплатность. Казалось бы, что тут удивительного? WMA тоже бесплатен и Astrid/Quartex... Да это так, но авторам этих форматов и в голову не пришло опубликовать исходные коды своих разработок, a Xiphophorus именно это и сделала. OggVorbis создается в рамках проекта GNU и полностью подчиняется GNU GPL (генеральная публичная лицензия). А это означает, что формат совершенно открыт для коммерческого и некоммерческого использования, его коды можно модифицировать безо всяких ограничений, группа разработчиков оставляет за собой лишь право утверждать новые спецификации формата. Некоторые ограничения, конечно, все же есть, они определены в GNU GPL. Согласно правилам GNU GPL можно делать любые изменения в коде программы, но при этом получившийся программный продукт так же должен подчиняться уложениям GNU GPL.
Правда, Xiphophorus все еще имеет возможность закрыть этот открытый формат и сделать его полностью коммерческим, ведь GNU — это полностью добровольная концепция. Но по заявлениям разработчиков, они этого делать не собираются. Выгоды от доступного, свободного от лицензий формата перевешивают выгоды получения денег за лицензии на его использование - именно так считают создатели OggVorbis и в качестве примера указывают на МРЗ. Разве достигла бы такого размаха индустрия МРЗ, если бы сам формат не стал бы бесплатен для конечных пользователей? Xiphophorus собирается пойти еще дальше и сделать формат бесплатным не только для пользователей, но и разработчиков программного обеспечения и аппаратуры. Создатели формата не требуют никаких лицензионных плат за любое использование спецификации OggVorbis. Сторонние разработчики вполне свободны создавать и продавать (или отдавать) свои собственные кодеры и декодеры использующие спецификацию OggVorbis. Но если используются программные продукты созданные именно Xiphophorus, например, кодек в виде DLL библиотеки или SDK-комплекты OggVorbis, в составе коммерческих разработок, необходимо будет j за них заплатить. Бесплатно только для некоммерческих проектов, подчиняющихся GNU GPL, т. е. распространяющихся свободно и вместе с исходными копами. Подобный подход заранее определяет мультиплатформенность OggVorbis.
Помимо бесплатности, OggVorbis, как спецификация, обладает также еще целым рядом неоспоримых достоинств. Так, верхняя планка частоты выборки составляет не 44 кГц, как у всех форматов, а 48 кГц, что, безусловно, более близко к живой музыке по сравнению с CD. Кроме того, число каналов не ограничено двумя как обычно — моно и стерео, а достигает 255! Представьте себе акустическую систему из 255 акустических систем! Поистине формат сделан с запасом. А ведь наступит когда-нибудь время, когда 48 кГц и 255 каналов станут нормой для компьютерного музыкального центра, а не экзотикой как сейчас.
OggVorbis использует математическую психоакустическую модель отличную от МРЗ, и это сказывается на звучании. МРЗ и OggVorbis трудно сравнивать, но в целом звучание OggVorbis гораздо лучше.
При кодировании кодеки OggVorbis используют VBR (variable bitrate), подобно некоторым МРЗ кодекам, что позволяет существенно уменьшить размер композиции, при незначительной потере качества.
Вышедшая бета версия кодека OggVorbis содержит всего одну довольно странную скорость — 136 кбит/с, но в самой спецификации заложен гораздо более широкий диапазон от 8 до 512 кбит/с. Последняя цифра выглядит чрезмерной, но не стоит забывать, что OggVorbis поддерживает до 255 каналов одновременно и, возможно, что если такие аудиокомпозиции появятся, то даже полумегабитной ширины потока может оказаться недостаточно.
Спецификация OggVorbis содержит очень гибкий и развитый механизм включения комментариев и иллюстраций в тело аудиокомпозиции. Заголовок комментария легко расширяется и позволяет включать тексты любой длины и сложности, перемежающиеся изображениями. Можно разместить хоть целую книгу о любимом актере. К сожалению, в бета-версии кодека эта возможность не реализована, но в будущем все исправится.
Что же касается скорости кодирования, то тут пока нет никаких выдающихся результатов. Скорость кодека OggVorbis не быстрее кодека МРЗ. Разработчики признают, что код кодека совершенно не оптимизирован, так как эта программа была выпущена как можно быстрее для демонстрации спецификации, чтобы не быть голословными. Т. е., в будущем можно ожидать существенного улучшения скоростных характеристик, особенно, когда подключатся сторонние производители.
OggVorbis, как и МРЗ, изначально разрабатывался как сетевой потоковый формат. Это свойство является очень важным, особенно учитывая мультиплатформенную направленность формата OggVorbis. Интернет-радиостанция использующая низкоскоростные версии OggVorbis сможет вещать сразу на всех платформах, тогда как такая же радиостанция, использующая для передачи WMA (в виде ASF) будет ограничена только пользователями Windows.
Формат OggVorbis прочился разработчиками в преемники МРЗ. И для этого есть все основания. OggVorbis содержит не только все те компоненты, которые обеспечили популярность МРЗ: отличное качество, малый размер, бесплатность для конечного пользователя, потоковость, но и ряд преимуществ, которых у МРЗ нет: бесплатность для разработчиков, отсутствие лицензионных платежей, более высокая частота дискретизации и значительно большее число поддерживаемых каналов.
Именно благодаря открытости формата об OggVorbis удалось узнать то, что не удавалось для всех других форматов (разве что, кроме МрЗ) — как он работает. Все остальные конкуренты МРЗ тщательно скрывают внутренние алгоритмы компрессии, и лишь OggVorbis выставляет их на показ. Разумеется, мы не будем рассматривать исходные коды формата, ограничившись простым описанием того, что происходит внутри кодека при кодировании/декодировании аудиокомпозиций.
На первом этапе кодирования, композиция временно разбивается на блоки таким образом, чтобы их было целое число. Размер блоков варьируется. Далее в ход вступают алгоритмы анализа. Кодер анализирует содержимое аудиокомпозиции с целью добиться ее максимально компактного представления. При анализе происходит разделение блоков входящего аудиопотока на индивидуальные и повторяющиеся. Это разделение необходимо при кодировании с использованием переменной скорости потока. Соответственно индивидуальные и повторяющиеся блоки будут кодироваться с разными скоростями.
Далее идет анализ содержимого блоков на предмет выявления нужных и ненужных частот и тонов, т. е. вступает в ход психоакустическая модель. Так как OggVorbis, как и МРЗ, это формат с потерями, то качество формата во многом зависит от того, насколько эти потери серьезны, и насколько удачно их можно замаскировать. Насколько можно судить по бета-версии кодека психоакустическая модель работает вполне корректно, качество довольно высокое, по крайней мере выше, чем у МРЗ. Насколько можно понять, психоакустическая модель OggVorbis практически не сокращает диапазон верхних звуковых частот, вернее, сокращает, но верхняя планка поднята достаточно высоко, чтобы удовлетворить даже самый изысканный слух. Итак, верхние частоты не трогают, но уменьшать композицию надо. За счет чего?
В OggVorbis главный акцент сделан на анализе маскирующего влияния сигналов звучащих одновременно. Эта часть сделана гораздо более изощренно и эффективно чем у МРЗ. В ходе анализа находятся сильные сигналы и сигналы, которые маскируются этими сигналами, т. е. находятся в своеобразной звуковой «тени». Затем рассчитывается среднее время маскировки для каждого из маскируемых сигналов. Все сигналы, лежащие в области звуковой «тени» и попадающие в расчетное время маскировки помечаются на удаление. Конечно, всегда найдутся люди, не вписывающиеся в среднестатистическое большинство. У них эффект маскировки может проходить быстрее, чем за рассчитанное кодеком время и может ощущаться отсутствие определенных частот и сигналов. Но обычные слушатели ничего не заметят.
На следующей стадии происходит удаление информации, которую алгоритмы анализа признали излишней.
Оставшуюся информацию сжимают алгоритмами Хаффмана и подвергают векторному квантованию в соответствии с установленной скоростью.
При декодировании или синтезе звука, происходит обратный процесс. В целом декодирование проще, так как отсутствует стадия анализа, но оно осложнено технологиями, назначение которых состоит в том, чтобы улучшить качество звучания. В процессе воспроизведения качество звука повышается путем использования интерполяции билинейной или бикубической, в зависимости от реализации декодера. Интерполяция позволяет смягчить потери при использовании низких скоростей. Качество композиции повышается, но при этом теряется четкость, особенно слоговая разборчивость человеческого голоса. Подобный поход оправдывает себя на мелодиях без голоса, но для песен и арий из опер он малопригоден. На высокой скорости интерполяция минимальна, заглаживаются лишь те «дыры», которые образовались на месте звуков оказавшихся в «тени» сильных тонов. Кроме интерполяции используются разнообразные шумовые фильтры, позволяющие смягчить или совсем убрать шумы квантования, которые появляются при потере информации в результате процедуры векторного квантования. Чем ниже скорость, тем выше шум квантования.
Но вернемся к кодированию аудиофайла. После стадий анализа, удаления избыточной информации и собственно кодирования происходит преобразование уже конечной информации в потоковый формат bitstream OggSqish. Подобно тому, как ASF является форматом пересылки данных для всего семейства Windows Media, так и bitstream OggSquish является единым форматом пересылки потока данных для всего мультимедиа семейства OggSquish.
Полученная информация разбивается на кадры (фреймы). Каждый кадр имеет упорядоченную структуру и заголовок, содержащий номер кадра, его контрольную сумму и прочую инженерную информацию. Контрольная сумма нужна для коррекции ошибок. В том случае если кадр испорчен, декодер его воспроизводить не будет, т. е. кадр пропускается, и воспроизведение начинается со следующего целого кадра.
После формирования заголовка композиции и первого кадра, далее процесс идет по циклу, эта стадия называется «конкатенация» или формирование цепочки. Начало и конец каждого кадра отмечается специальными сигналами-маркерами. И так до образования последнего кадра и концовки содержащей код окончания файла.
И напоследок несколько слов о перспективах формата OggVorbis.
Формат очень новый и трудно что-либо сказать до выхода первого официального кодека, в котором будут реализованы все особенности спецификации OggVorbis. Но даже сейчас видно, что у формата большие возможности, главное его надо «раскрутить» и привлечь сторонних разработчиков.
Естественно, Ogg Vorbis является не единственной некоммерческой разработкой такого рода. Энтузиасты продолжали и продолжают делать попытки создания альтернативных качественных аудиокодеков. Кодек MPEGplus (MPEG+) был позже переименован в MusePack (MPC) из-за проблем, которые появились у автора кодека в связи с тем, что название последнего содержало в себе аббревиатуру «MPEG».
MusePack — это еще одна разновидность сжатия звука с потерями сродни МРЗ. Точнее, MusePack не является продолжением MPEG-1 Layer III, а лишь, как и МРЗ, берет свое начало в MPEG-1 Layer П. MusePack создан «в домашних условиях» и разрабатывался(ется) в основном двумя людьми: Andre Buschmann и Frank Klemm. Кодек, как уже было сказано, базируется на MPEG-1 Layer П, отсюда его направленность на кодирование преимущественно на более высоких скоростях, нежели МРЗ. В то же время, кодек является совершенно самостоятельной разработкой.
Кодеком предусмотрено кодирование только в режиме переменной скорости потока. Скорость компрессии и декомпрессии в/из МРС заметно выше скорости выполнения этих операций применительно к МРЗ.
В среднем, качество кодирования МРС на высоких скоростях (160 Кбит/с и выше) заметно (если не сказать «значительно») выше качества, обеспечиваемого МРЗ. Это связано с различиями в механизмах кодирования. Ранее мы отмечали, что МРЗ при кодировании разбивает сигнал на частотные подполосы, затем производит разложение сигнала в ряд косинусов (MDCT — частный случай преобразования Фурье) и записывает округленные (квантованные) значения полученных после преобразования коэффициентов. МРС же после разбиения сигнала на частотные подполосы просто производит переквантование (опираясь на психоакустическую модель) сигнала в каждой подполосе и полученные округленные (квантованные) значения записывает в выходной поток. Этим же фактом объясняется и большая скорость компрессии и декомпрессии МРС.
В отличие от Ogg Vorbis, кодек MusePak переживает сегодня не самые лучшие времена — в то время, как Ogg Vorbis получает все более и более широкое распространение (как среди пользователей, так и среди производителей), MusePak остается малоизвестным, хотя и незаслуженно.
Перед тем, как приступить к рассмотрению этого формата хотелось бы разрешить некоторую путаницу, которая возникла вокруг его названия. Некоторые авторы в своих статьях называют этот формат форматом аудиосжатия WMA (Windows Media Audio), а некоторые - форматом аудио - (видео-) сжатия ASF (Advansed Streaming Format). Так вот, ASF ни коим образом не является форматом сжатия аудио - или видеоинформации, а те, кто так пишет либо заблуждаются, либо просто не удосужились вникнуть в некоторые тонкости перевода технической документации. Как следует из названия, ASF - это продвинутый формат передачи информационного потока и вполне годится для пересылки как аудио - и видеоданных, так и вообще любой информации. При этом ASF не сжимает данные, этим занимаются отдельные кодеки, например, WMT для аудиофайлов и Windows Media MPEG-4 (а теперь и Windows Media Video) для видео.
ASF обеспечивает непрерывность получения потока данных, столь необходимую любому сетевому формату мультимедиа. Для достижения этой цели формат использует наряду с уже известными и проверенными решениями, такими как разбивку передаваемой информации на кадры, буферизацию для обеспечения одновременного получения и обработки данных, проверку контрольной суммы кадров для коррекции ошибок, и некоторые технологические новинки являющиеся секретом фирмы Microsoft .
На практике сочетание ASF + мультимедиа-кодек является примерным аналогом широко распространенной в Unix - системах парой tar + gzip. Gzip - это архиватор, a tar - это менеджер - «сборщик», собирающий все сжатые файлы и каталоги в один файл архива. Здесь ситуация весьма схожа. Кодек — это своего мультимедиа-архиватор, а формат ASF - менеджер пересылки, отвечающий за передачу данных.
Нас интересует, собственно, только звуковая часть кодеков, которые используются вместе с ASF. Именно та часть, которую Microsoft (устав от неразберихи, связанной с ASF) наконец-то, решив стандартизировать свои мультимедиа-форматы, требует называть WMA (существует еще и WMV — Windows Media Video - стандарт, который все еще продолжают называть ASF, тем более, что Media Player прекрасно его понимает и с таким расширением).
Несмотря на то, что WMA как стандарт появился сравнительно недавно, чуть ли не последним из всех конкурентов МРЗ, история этого формата, вернее его кодека, началась гораздо раньше.
Компания Voxware известная своими разработками в области мультимедиа, непоседливостью и большим интересом ко всему новому и передовому в мае 1998 года примкнула к проекту TwinVQ, разработанному творческой группой Human Interface Laboratory, являющейся подразделением компании NTT, с целью развития и усовершенствования этого формата, который на тот момент был еще очень сырым и не оптимизированным. Содружество это увенчалось успехом - стандарт VQF был доработан и приобрел тот вид, в котором мы его видим и сейчас.
Ну, а компания Voxware, убедившись, что и без нее дела идут неплохо, решительно пустилась в самостоятельное плавание. Используя собственные новаторские идеи, а также некоторые фрагменты технологии TwinVQ, приобретя на эту разработку определенные права, Voxware создала собственный формат, который реально воплотился в кодеке под названием Voxware Audio CODEC v4.0. Когда были выпущены первые три версии - это науке не известно, ну а этот кодек прославился сразу по нескольким номинациям.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 |



