Код документа: RU2650026C2
Настоящее изобретение имеет отношение к устройству и способу для многоканального прямого-окружающего разложения для обработки звукового сигнала.
Обработка звуковых сигналов становится все более важной. В этой области важную роль играет разделение звуковых сигналов на прямые и окружающие звуковые сигналы.
В большинстве случаев акустические звуки состоят из смеси прямых звуков и окружающих (или рассеянных) звуков. Прямые звуки испускаются источниками звука, например музыкальным инструментом, вокалистом или громкоговорителем, и поступают по кратчайшему пути на приемник, например ушной канал слушателя или микрофон.
При прослушивании прямого звука, он воспринимается как поступающий со стороны источника звука. Характерными слуховыми ориентирами для локализации и для других пространственных характеристик звука являются интерауральная разница интенсивности, интерауральная временная разница и интерауральная когерентность. Прямые звуковые волны, вызывающие идентичные интерауральную разницу интенсивности и интерауральную временную разницу, воспринимаются как поступающие с одной и той же стороны. В отсутствие рассеянного звука сигналы, достигающие левого и правого уха или какого-либо другого множества датчиков, являются когерентными.
Окружающие звуки, в отличие от этого, испускаются многими разнесенными источниками звука или звукоотражающими барьерами, вносящими вклад в один и тот же окружающий звук. Когда звуковая волна достигает стены в комнате, часть ее отражается, и наложение всех отражений в комнате, реверберация, является показательным примером окружающего звука. Другими примерами являются звуки аудитории (например, аплодисменты), природные звуки (например, дождь), а также другие фоновые звуки (например, неразборчивый шум). Окружающие звуки воспринимаются как рассеянные, без определенного местоположения, и вызывают ощущение окутывания ("погружения в звук") у слушателя. При захвате окружающего звукового поля с использованием множества разнесенных датчиков, записанные сигналы являются, по меньшей мере, частично некогерентными.
Различные приложения редактирования и воспроизведения звука пользуются разложением звуковых сигналов на компоненты прямого сигнала и компоненты окружающего сигнала. Главная трудность такой обработки сигналов состоит в том, чтобы добиться высокой степени разделения при сохранении высокого качества звука для произвольного числа входных канальных сигналов и для всех возможных характеристик входных сигналов. Прямое-окружающее разложение (DAD - direct-ambient decomposition), т.е. разложение звуковых сигналов на компоненты прямых сигналов и компоненты окружающих сигналов, дает возможность раздельного воспроизведения или модификации компонентов сигнала, что, например, желательно для повышающего микширования звуковых сигналов.
Термин повышающее микширование относится к технологическому процессу создания сигнала с P каналами, если имеется входной сигнал с N каналами, где P>N. Его главным применением является воспроизведение звуковых сигналов с использованием установок объемного звучания, имеющих больше каналов, чем доступно во входном сигнале. Воспроизведение содержимого при помощи усовершенствованных алгоритмов обработки сигналов позволяет слушателю использовать все доступные каналы многоканальной установки воспроизведения звука. Такая обработка может раскладывать входной сигнал на значащие компоненты сигнала (например, на основании их воспринимаемой позиции в стереофоническом изображении, прямые звуки в противоположность окружающим звукам, отдельные инструменты) или на сигналы, в которых эти компоненты сигнала ослаблены или усилены.
Широко известны две концепции повышающего микширования.
1. Управляемое повышающее микширование: повышающее микширование с дополнительной информацией, направляющей технологический процесс повышающего микширования. Дополнительная информация может быть или «закодирована» определенным образом во входном сигнале или может храниться дополнительно.
2. Неуправляемое повышающее микширование: выходной сигнал получается исключительно из звукового входного сигнала, без какой-либо дополнительной информации.
Усовершенствованные способы повышающего микширования могут быть дополнительно классифицированы с учетом позиционирования прямых и окружающих сигналов. Это различие между подходом «прямой/окружающий» и «групповым» подходом. Основным компонентом методов на основе «прямой/окружающий» является выделение окружающего сигнала, который подается, например, в задние каналы или верхние каналы многоканальной установки объемного звучания. Воспроизведение окружения с использованием задних или верхних каналов создает впечатление окутывания («погружения в звук») у слушателя. Дополнительно, источники прямого звука могут быть распределены между фронтальными каналами согласно их воспринимаемой позиции в стереопанораме. В отличие от этого, «групповой» подход нацелен на позиционирование всех звуков (как прямого звука, так и окружающих звуков) вокруг слушателя с использованием всех доступных громкоговорителей.
Разложение звукового сигнала на прямые и окружающие сигналы также дает возможность раздельной модификации окружающих звуков или прямых звуков, например, масштабируя или фильтруя их. Одним вариантом использования является обработка записи музыкального исполнения, которое было захвачено со слишком большим количеством окружающего звука. Другим вариантом использования является звукопроизводство (например, для звукового сопровождения фильма или музыки), когда объединяются звуковые сигналы, захваченные в разных местах и вследствие этого имеющие разные характеристики окружающего звука.
В любом случае требования, предъявляемые к такой обработке сигнала, состоят в том, чтобы добиться высокой степени разделения при сохранении высокого качества звука для произвольного числа входных канальных сигналов и для всех возможных характеристик входных сигналов.
Различные подходы были предоставлены на предшествующем уровне техники для DAD или для ослабления или усиления либо компонентов прямого сигнала, либо компонентов окружающего сигнала, и кратко рассматриваются ниже.
Известные концепции имеют отношение к обработке речевых сигналов с целью удаления нежелательного фонового шума из записей с микрофона.
Способ для ослабления реверберации речевых записей, имеющих два входных канала описан в документе [1]. Компоненты реверберирующего сигнала уменьшаются путем ослабления компонентов некоррелированного (или рассеянного) сигнала во входном сигнале. Обработка реализуется в частотно-временной области таким образом, что сигналы участков полосы частот обрабатываются посредством способа спектрального взвешивания. Вещественные весовые коэффициенты вычисляются с использованием спектральных плотностей мощности (СПМ)
где X(m,k) и Y(m,k) обозначают представления в частотно-временной области для входных сигналов xt[n] и yt[n] во временной области, E{∙} является операцией математического ожидания, а
Авторы первоисточника указывают на то, что допустимы разные функции спектрального взвешивания, которые пропорциональны
С учетом подобного обоснования, способ, описанный в документе [2], выделяет окружающий сигнал, используя спектральное взвешивание с весами, полученными исходя из нормированной взаимно-корреляционной функции, вычисленной в полосах частот, см. Формула (4) (или, в формулировке авторов первоисточника, «функции межканальной кратковременной когерентности»). Отличие от документа [1] состоит в том, что вместо ослабления компонентов рассеянного сигнала, ослабляются компоненты прямого сигнала с использованием спектральных весов, которые являются монотонной непрерывной функцией (1-ρ(m,k)).
Разложение для применения повышающего микширования входных сигналов, имеющих два канала, с использованием многоканальной винеровской фильтрации, было описано в документе [3]. Обработка производится в частотно-временной области. Входной сигнал моделируется как смесь окружающего сигнала и одного активного прямого источника (для каждой полосы частот), причем прямой сигнал в одном канале ограничивается до масштабированной копии компонента прямого сигнала во втором канале, т.е. амплитудного панорамирования. Коэффициент панорамирования и мощности прямого сигнала и окружающего сигнала оцениваются с использованием нормированной взаимной корреляции и мощностей входных сигналов в обоих каналах. Прямой выходной сигнал и окружающие выходные сигналы получаются из линейных комбинаций входных сигналов, с вещественными весовыми коэффициентами. Дополнительное последующее масштабирование применяется таким образом, что мощность выходных сигналов равна оцененным величинам.
Способ, описанный в документе [4], выделяет окружающий сигнал с помощью спектрального взвешивания, на основании оценки окружающей мощности. Окружающая мощность является оценкой на основании предположений, что компоненты прямого сигнала в обоих каналах полностью коррелированы, что окружающие канальные сигналы некоррелированы друг с другом и с прямыми сигналами, и что окружающие мощности в обоих каналах равны.
Способ для повышающего микширования стереофонических сигналов на основе Направленного Звукового Кодирования (DirAC - Directional Audio Coding) описан в документе [5]. DirAC нацелено на анализ и воспроизведение направления поступления, рассеянности и спектра звукового поля. Для повышающего микширования входных стереофонических сигналов моделируются безэховые записи в B-формате входных сигналов.
Способ для выделения некоррелированной реверберации из звукового стереофонического сигнала с использованием алгоритма адаптивной фильтрации, который нацелен на предсказание компонента прямого сигнала в одном канальном сигнале, используя другой канальный сигнал, посредством алгоритма минимальной среднеквадратичной ошибки (LMS - Least Mean Square), описан в документе [6]. Затем окружающие сигналы получаются путем вычитания оцененных прямых сигналов из входных сигналов. Обоснование этого подхода состоит в том, что предсказание работает только для коррелированных сигналов, и ошибка предсказания имеет сходство с некоррелированным сигналом. Существуют различные алгоритмы адаптивной фильтрации, основанные на принципе LMS, и допустимы, например, алгоритм LMS или нормированной LMS (NLMS - Normalized LMS).
Для разложения входных сигналов с более чем двумя каналами в документе [7] описан способ, в котором многоканальные сигналы сперва подвергаются понижающему микшированию, чтобы получить 2-канальный стереофонический сигнал, а затем применяется способ для обработки входных стереофонических сигналов, представленный в документе [3].
Для обработки монофонических сигналов, способ, описанный в документе [8], выделяет окружающий сигнал с помощью спектрального взвешивания, причем спектральные веса вычисляются с использованием выделения признаков и контролируемого обучения.
Другой способ для выделения окружающего сигнала из монофонических записей для применения повышающего микширования получает представление в частотно-временной области, исходя из разницы представления в частотно-временной области входного сигнала и его сжатой версии, предпочтительно вычисленной с помощью факторизации неотрицательной матрицы [9].
Способ для выделения и изменения компонентов реверберирующего сигнала в звуковом сигнале на основании оценки абсолютной величины передаточной функции реверберационной системы, в которой генерируется реверберирующий сигнал, описан в документе [10]. Оценка абсолютных величин представления в частотной области компонентов сигнала производится при помощи рекурсивной фильтрации и может быть модифицирована.
Задачей настоящего изобретения является предоставить улучшенные концепции для многоканального прямого-окружающего разложения для обработки звукового сигнала. Задача настоящего изобретения решается благодаря устройству по п. 1 формулы изобретения, способу по п. 14 формулы изобретения и компьютерной программе по п. 15 формулы изобретения.
Предоставляется устройство для генерирования одного или нескольких выходных звуковых канальных сигналов в зависимости от двух или более входных звуковых канальных сигналов. Каждый из двух или более входных звуковых канальных сигналов содержит части прямого сигнала и части окружающего сигнала. Устройство содержит модуль определения фильтра для определения фильтра путем оценки первой информации спектральной плотности мощности и оценки второй информации спектральной плотности мощности. Помимо этого, устройство содержит процессор обработки сигналов для генерирования одного или нескольких выходных звуковых канальных сигналов путем применения фильтра на двух или более входных звуковых канальных сигналах. Первая информация спектральной плотности мощности указывает информацию спектральной плотности мощности по двум или более входным звуковым канальным сигналам, а вторая информация спектральной плотности мощности указывает информацию спектральной плотности мощности по частям окружающих сигналов двух или более входных звуковых канальных сигналов. Или, первая информация спектральной плотности мощности указывает информацию спектральной плотности мощности по двум или более входным звуковым канальным сигналам, а вторая информация спектральной плотности мощности указывает информацию спектральной плотности мощности по частям прямых сигналов двух или более входных звуковых канальных сигналов. Или, первая информация спектральной плотности мощности указывает информацию спектральной плотности мощности по частям прямых сигналов двух или более входных звуковых канальных сигналов, а вторая информация спектральной плотности мощности указывает информацию спектральной плотности мощности по частям окружающих сигналов двух или более входных звуковых канальных сигналов.
Варианты осуществления предоставляют концепции для разложения входных звуковых сигналов на компоненты прямого сигнала и компоненты окружающего сигнала, которые могут быть применены для монтажа и воспроизведения звука. Главная трудность такой обработки сигналов состоит в том, чтобы добиться высокой степени разделения при сохранении высокого качества звука для произвольного числа входных канальных сигналов и для всех возможных характеристик входных сигналов. Предоставляемые концепции основываются на многоканальной обработке сигнала в частотно-временной области, которая приводит к условному оптимальному решению по среднеквадратической ошибке, и, например, с учетом ограничений по искажению оцененных полезных сигналов или по снижению остаточных помех.
Предоставляются варианты осуществления для разложения входных звуковых сигналов на компоненты прямых сигналов и компоненты окружающего сигнала. Кроме того, будет предоставлено получение фильтров для вычисления компонентов окружающих сигналов, и помимо этого описываются варианты осуществления для применений этих фильтров.
Некоторые варианты осуществления имеют отношение к неуправляемому повышающему микшированию согласно подходу прямой/ окружающий в отношении входных сигналов, имеющих более одного канала.
Что касается намеченных применений описываемого разложения, интерес представляет вычисление выходных сигналов, имеющих такое же число каналов, как и входной сигнал. Для такого применения варианты осуществления обеспечивают очень хорошие результаты с точки зрения разделения и качества звука, потому что можно справиться с входными сигналами, в которых прямые сигналы задерживаются по времени между входными каналами. В отличие от других концепций, например, концепций, предоставленных в документе [3], варианты осуществления не предполагают, что прямые звуки во входных сигналах панорамируются только за счет масштабирования (амплитудное панорамирование), но также и благодаря введению разностей по времени между прямыми сигналами в каждом канале.
Кроме того, варианты осуществления могут оперировать с входным сигналом, имеющим произвольное число каналов, в отличие от всех других концепций на предшествующем уровне техники (см. выше), которые могут обрабатывать только входные сигналы, имеющие один или два канала.
Другими преимуществами вариантов осуществления являются использование управляющих параметров, оценка окружающей матрицы СПМ и дополнительные модификации фильтра, что описано ниже.
Некоторые варианты осуществления обеспечивают единообразные окружающие звуки для всех входных звуковых объектов. Когда входные сигналы раскладываются на прямые и окружающие звуки, некоторые варианты осуществления адаптируют характеристики окружающего звука посредством надлежащей обработки звукового сигнала, а другие варианты осуществления заменяют компоненты окружающего сигнала при помощи искусственной реверберации и других искусственных окружающих звуков.
Согласно одному из вариантов осуществления, устройство может дополнительно содержать анализирующий банк фильтров, выполненный с возможностью преобразования двух или более входных звуковых канальных сигналов из временной области в частотно-временную область. Модуль определения фильтра может быть выполнен с возможностью определения фильтра путем оценки первой информации спектральной плотности мощности и второй информации спектральной плотности мощности в зависимости от входных звуковых канальных сигналов, представленных в частотно-временной области. Процессор обработки сигналов может быть выполнен с возможностью генерирования одного или нескольких выходных звуковых канальных сигналов, представленных в частотно-временной области, путем применения фильтра на двух или более входных звуковых канальных сигналах, представленных в частотно-временной области. Помимо этого, устройство может дополнительно содержать синтезирующий банк фильтров, выполненный с возможностью преобразования одного или нескольких выходных звуковых канальных сигналов, представленных в частотно-временной области, из частотно-временной области во временную область.
Помимо этого, предоставляется способ для генерирования одного или нескольких выходных звуковых канальных сигналов в зависимости от двух или более входных звуковых канальных сигналов. Каждый из двух или более входных звуковых канальных сигналов содержит части прямого сигнала и части окружающего сигнала. Способ содержит этапы, на которых:
- Определяют фильтр путем оценки первой информации спектральной плотности мощности и оценки второй информации спектральной плотности мощности. И:
- Генерируют один или несколько выходных звуковых канальных сигналов путем применения фильтра на двух или более входных звуковых канальных сигналах.
Первая информация спектральной плотности мощности указывает информацию спектральной плотности мощности по двум или более входным звуковым канальным сигналам, а вторая информация спектральной плотности мощности указывает информацию спектральной плотности мощности по частям окружающих сигналов двух или более входных звуковых канальных сигналов. Или, первая информация спектральной плотности мощности указывает информацию спектральной плотности мощности по двум или более входным звуковым канальным сигналам, а вторая информация спектральной плотности мощности указывает информацию спектральной плотности мощности по частям прямых сигналов двух или более входных звуковых канальных сигналов. Или, первая информация спектральной плотности мощности указывает информацию спектральной плотности мощности по частям прямых сигналов двух или более входных звуковых канальных сигналов, а вторая информация спектральной плотности мощности указывает информацию спектральной плотности мощности по частям окружающих сигналов двух или более входных звуковых канальных сигналов.
Помимо этого, предоставляется компьютерная программа для реализации вышеописанного способа при исполнении на компьютере или процессоре обработки сигналов.
В дальнейшем варианты осуществления настоящего изобретения описываются более подробно со ссылкой на чертежи, на которых:
Фиг. 1 иллюстрирует устройство для генерирования одного или нескольких выходных звуковых канальных сигналов в зависимости от двух или более входных звуковых канальных сигналов, согласно одному из вариантов осуществления,
Фиг. 2 иллюстрирует входные и выходные сигналы разложения 5-канальной записи классической музыки, с входными сигналами (левый столбец), окружающими выходными сигналами (средний столбец) и прямыми выходными сигналами (правый столбец), согласно одному из вариантов осуществления,
Фиг. 3 изображает общее представление разложения с использованием оценки окружающего сигнала и оценки прямого сигнала, согласно одному из вариантов осуществления,
Фиг. 4 демонстрирует общее представление разложения с использованием оценки прямого сигнала, согласно одному из вариантов осуществления,
Фиг. 5 иллюстрирует общее представление разложения с использованием оценки окружающего сигнала, согласно одному из вариантов осуществления,
Фиг. 6А иллюстрирует устройство согласно другому варианту осуществления, в котором устройство дополнительно содержит анализирующий банк фильтров и синтезирующий банк фильтров, и
Фиг. 6В изображает устройство согласно еще одному варианту осуществления, иллюстрируя выделение компонентов прямого сигнала, при этом блок АБФ представляет собой набор из N анализирующих банков фильтров (один для каждого канала), и при этом СБФ представляет собой набор синтезирующих банков фильтров.
Фиг. 1 иллюстрирует устройство для генерирования одного или нескольких выходных звуковых канальных сигналов в зависимости от двух или более входных звуковых канальных сигналов, согласно одному из вариантов осуществления. Каждый из двух или более входных звуковых канальных сигналов содержит части прямого сигнала и части окружающего сигнала.
Устройство содержит модуль 110 определения фильтра для определения фильтра путем оценки первой информации спектральной плотности мощности и оценки второй информации спектральной плотности мощности.
Помимо этого устройство содержит процессор 120 обработки сигнала для генерирования одного или нескольких выходных звуковых канальных сигналов путем применения фильтра на двух или более входных звуковых канальных сигналах.
Первая информация спектральной плотности мощности указывает информацию спектральной плотности мощности по двум или более входным звуковым канальным сигналам, а вторая информация спектральной плотности мощности указывает информацию спектральной плотности мощности по частям окружающих сигналов двух или более входных звуковых канальных сигналов.
Или, первая информация спектральной плотности мощности указывает информацию спектральной плотности мощности по двум или более входным звуковым канальным сигналам, а вторая информация спектральной плотности мощности указывает информацию спектральной плотности мощности по частям прямых сигналов двух или более входных звуковых канальных сигналов.
Или, первая информация спектральной плотности мощности указывает информацию спектральной плотности мощности по частям прямых сигналов двух или более входных звуковых канальных сигналов, а вторая информация спектральной плотности мощности указывает информацию спектральной плотности мощности по частям окружающих сигналов двух или более входных звуковых канальных сигналов.
Описываются варианты осуществления, предоставляющие концепции для разложения входных звуковых сигналов на компоненты прямых сигналов и компоненты окружающих сигналов, которые могут быть применены для монтажа и воспроизведения звука. Главная трудность такой обработки сигналов состоит в том, чтобы добиться высокой степени разделения при сохранении высокого качества звука для произвольного числа входных канальных сигналов и для всех возможных характеристик входных сигналов. Предоставляемые варианты осуществления основываются на многоканальной обработке сигнала в частотно-временной области и обеспечивают оптимальное решение по среднеквадратической ошибке, с учетом ограничений по искажению оцененных полезных сигналов или по снижению остаточных помех.
Сначала описываются идеи изобретения, на которых основываются варианты осуществления настоящего изобретения.
Предполагается, что принимаются N входных канальных сигналов yt[n]:
Например, N ≥ 2. Целью предоставляемых концепций является разложение входных канальных сигналов y1[n]... yN[n] ( = [yt[n]]T) на N компонентов прямых сигналов, обозначаемых dt[n] = [d1[n]... dN[n]]T и/или N компонентов окружающих сигналов, обозначаемых at[n] = [a1[n]... aN[n]]T. Обработка может быть применена для всех входных каналов, или каналы входных сигналов разбиваются на подмножества каналов, которые обрабатываются по отдельности.
Согласно вариантам осуществления, один или несколько компонентов d1[n],..., dN[n] прямых сигналов и/или один или несколько компонентов a1[n],..., aN[n] окружающих сигналов должны оцениваться, исходя из двух или более входных канальных сигналов y1[n],..., yN[n], чтобы получить одну или несколько оценок
Пример обеспечиваемых выходов некоторых вариантов осуществления изображен на Фиг. 2, для N = 5. Один или несколько выходных звуковых канальных сигналов
Согласно вариантам осуществления, обработка может быть, например, выполнена в частотно-временной области. Представление в частотно-временной области входного звукового сигнала может быть, например, получено при помощи банка фильтров (анализирующего банка фильтров), например, оконного преобразования Фурье (STFT - Short-time Fourier transform).
Согласно варианту осуществления, проиллюстрированному на Фиг. 6А, анализирующий банк 605 фильтров преобразует входные звуковые канальные сигналы yt[n] из временной области в частотно-временную область. Помимо этого, на Фиг. 6А, синтезирующий банк 625 фильтров преобразует оценку компонентов
В варианте осуществления на Фиг. 6А анализирующий банк 605 фильтров выполнен с возможностью преобразования двух или более входных звуковых канальных сигналов из временной области в частотно-временную область. Модуль 110 определения фильтра выполнен с возможностью определения фильтра путем оценки первой информации спектральной плотности мощности и второй информации спектральной плотности мощности в зависимости от входных звуковых канальных сигналов, представленных в частотно-временной области. Процессор 120 обработки сигналов выполнен с возможностью генерирования одного или нескольких выходных звуковых канальных сигналов, представленных в частотно-временной области, путем применения фильтра на двух или более входных звуковых канальных сигналах, представленных в частотно-временной области. Синтезирующий банк 625 фильтров выполнен с возможностью преобразования одного или нескольких выходных звуковых канальных сигналов, представленных в частотно-временной области, из частотно-временной области во временную область.
Представление в частотно-временной области содержит некоторое число сигналов участков полосы частот, которые меняются с течением времени. Смежные участки полосы частот в некоторых случаях могут быть линейно объединены в сигналы более широких участков полосы частот для того, чтобы снизить сложность вычислений. Каждый участок полосы частот входных сигналов обрабатывается отдельно, как подробно описано ниже. Выходные сигналы во временной области получаются путем применения обратной обработки банка фильтров, т.е. синтезирующего банка фильтров, соответственно. Предполагается, что все сигналы имеют нулевое среднее, сигналы в частотно-временной области могут быть смоделированы как комплексные случайные величины.
В дальнейшем приводятся определения и допущения.
Приведенные ниже определения используются во всем описании изобретенного способа: Представление в частотно-временной области многоканального входного сигнала с N каналами задается следующим образом
с временным индексом m и индексом k участка полосы частот, k = 1... K, и предполагается аддитивная смесь компонента d(m,k) прямого сигнала и компонента a(m,k) окружающего сигнала, т.е.
при
где Di(m,k) обозначает прямой компонент, а Ai(m,k) окружающий компонент, в i-м канале.
Цель прямого-окружающего разложения состоит в том, чтобы оценить d(m,k) и a(m,k). Выходные сигналы вычисляются с использованием матриц HD(m,k) или HA(m,k) фильтров, или обеих. Матрицы фильтров имеют размер N×N и являются комплекснозначными, или могут быть, в некоторых вариантах осуществления, например, вещественнозначными. Оценка N-канальных сигналов компонентов прямых сигналов и компонентов окружающих сигналов получается из следующего
где I является единичной матрицей размера N × N, или, как показано в Фиг. 5, в виде
соответственно. Здесь верхний индексH обозначает сопряженное транспонирование матрицы или вектора. Матрица HD(m,k) фильтров используется для вычисления оценок для прямых сигналов
В вышеизложенных Формулах (10)-(15), y(m,k) отражает два или более входных звуковых канальных сигнала.
Одна, некоторые или все Формулы (10), (11), (12), (13), (14) и (15) могут задействоваться процессором 120 обработки сигналов, изображенным на Фиг. 1 и Фиг. 6А, для применения фильтра, изображенного на Фиг. 1 и Фиг. 6А, на входных звуковых канальных сигналах. Фильтром, изображенным на Фиг. 1 и Фиг. 6А, может быть, например, HD(m,k), HA(m,k),
Фильтрующие матрицы вычисляются, исходя из оценок статистических характеристик сигналов, как описано ниже.
В частности, модуль 110 определения фильтра выполнен с возможностью определения фильтра путем оценки первой информации спектральной плотности мощности (СПМ) и второй информации СПМ.
Зададим:
где E{∙} является оператором математического ожидания, а
Ковариационными матрицами для y(m,k), d(m,k) и a(m,k) являются
Ковариационные матрицы Φy(m,k), Φd(m,k) и Φa(m,k) содержат оценки СПМ для всех каналов на главной диагонали, тогда как недиагональные элементы являются оценками взаимной СПМ соответственных канальных сигналов. Таким образом, каждая из матриц Φy(m,k), Φd(m,k) и Φa(m,k) представляет собой оценку информации спектральной плотности мощности.
В Формулах (17)-(19), Φy(m,k) отражает информацию спектральной плотности мощности по двум или более входным звуковым канальным сигналам. Φd(m,k) отражает информацию спектральной плотности мощности по компонентам прямых сигналов двух или более входных звуковых канальных сигналов. Φa(m,k) отражает информацию спектральной плотности мощности по компонентам окружающих сигналов двух или более входных звуковых канальных сигналов.
Каждую из матриц Φy(m,k), Φd(m,k) и Φa(m,k) в Формулах (17), (18) и (19) можно рассматривать как информацию спектральной плотности мощности. Тем не менее, следует отметить, что, в других вариантах осуществления, первая и вторая информация спектральной плотности мощности не является матрицей, а может быть представлена в подходящем формате любого другого типа. Например, согласно вариантам осуществления, первая и/или вторая информация спектральной плотности мощности может быть представлена в виде одного или нескольких векторов. В дополнительных вариантах осуществления первая и/или вторая информация спектральной плотности мощности может быть представлена в виде множества коэффициентов.
Предполагается, что
• Di(m,k) и Ai(m,k) являются взаимно некоррелированными:
• Ai(m,k) и Aj(m,k) являются взаимно некоррелированными:
• Окружающая мощность равна во всех каналах:
Как следствие, считается, что
Как следствие Формулы (20), из этого следует, что если определяются две матрицы из матриц Φy(m,k), Φd(m,k) и Φa(m,k), то третья из этих матриц сразу же доступна. Как дальнейшее следствие, из этого следует, что достаточно определить только:
- информацию спектральной плотности мощности по двум или более входным звуковым канальным сигналам и информацию спектральной плотности мощности по частям окружающих сигналов двух или более входных звуковых канальных сигналов, или
- информацию спектральной плотности мощности по двум или более входным звуковым канальным сигналам и информацию спектральной плотности мощности по частям прямых сигналов двух или более входных звуковых канальных сигналов, или
- информацию спектральной плотности мощности по частям прямых сигналов двух или более входных звуковых канальных сигналов и информацию спектральной плотности мощности по частям окружающих сигналов двух или более входных звуковых канальных сигналов,
потому что третья информация спектральной плотности мощности (которая не оценивалась) сразу же становится очевидной из взаимосвязи трех типов информации спектральной плотности мощности (например, по Формуле (20) или согласно любой другой новой формулировке взаимосвязи трех типов информации спектральной плотности мощности (СПМ полного входного сигнала, СПМ окружающих компонентов и СПМ прямых компонентов), когда упомянутые три типа информации СПМ не представлены в виде матриц, но когда они доступны в подходящем представлении другого типа, например, в виде одного или нескольких векторов, или, например, в виде множества коэффициентов, и т.д.
Чтобы проанализировать эффективность изобретенного способа, задаются следующие сигналы:
• Искажение прямого сигнала:
• Остаточный окружающий сигнал:
• Искажение окружающего сигнала:
• Остаточный прямой сигнал:
В дальнейшем, получение матриц фильтров описывается ниже в соответствии с Фиг. 4 и в соответствии с Фиг. 5. Для лучшей удобочитаемости отброшены индексы участков полосы частот и временные индексы.
Сначала описываются варианты осуществления для оценки компонентов прямых сигналов.
Обоснованием изобретенного способа является вычисление фильтров таким образом, чтобы остаточный окружающий сигнал ra сводился к минимуму при ограничении искажения qd прямого сигнала. Это приводит к задаче условной оптимизации
где
Фильтр для вычисления прямого выходного сигнала i-го канала равен
где ui является нулевым вектором длины N с 1 в i-й позиции. Параметр βi позволяет согласовать снижение остаточного окружающего сигнала и искажение окружающего сигнала. Для системы, изображенной на Фиг. 4, более низкие уровни остаточного окружения в прямом выходном сигнале приводят к более высоким уровням окружения в окружающих выходных сигналах. Меньшее искажение прямого сигнала приводит к большему ослаблению компонентов прямых сигналов в окружающих выходных сигналах. Зависящий от времени и частоты параметр βi может устанавливаться отдельно для каждого канала и может регулироваться при помощи входных сигналов или сигналов, соответственно полученных, как описано ниже.
Следует отметить, что аналогичное решение может быть получено посредством формульного выражения задачи условной оптимизации в виде
Когда Φd является матрицей первого ранга, отношение между
где
где след квадратной матрицы A равняется сумме элементов на главной диагонали,
Следует отметить, что утверждение, что Φd является матрицей первого ранга, является только допущением. Независимо от того, верно или нет в действительности это допущение, варианты осуществления настоящего изобретения задействуют вышеприведенные Формулы (26), (27) и (28) даже в тех ситуациях, когда в действительности точный результат для Φd таков, что Φd не является матрицей первого ранга. В таких ситуациях варианты осуществления настоящего изобретения тоже обеспечивают хорошие результаты, даже когда утверждение, что Φd является матрицей первого ранга, не соответствует действительности.
В дальнейшем описывается оценка компонентов окружающих сигналов.
Обоснованием изобретенного способа является вычисление фильтров таким образом, чтобы остаточный прямой сигнал rd сводился к минимуму при ограничении искажения qa прямого сигнала. Это приводит к задаче условной оптимизации
где
Фильтр для вычисления окружающего выходного сигнала i-го канала равен
В дальнейшем в деталях предоставлены варианты осуществления, которые реализуют идеи настоящего изобретения.
Чтобы определить информацию спектральной плотности мощности, например, может непосредственно оцениваться матрица СПМ входных звуковых канальных сигналов Φy с помощью кратковременного скользящего усреднения или рекурсивного усреднения. Окружающая матрица Φa СПМ может, например, оцениваться, как описано ниже. Прямая матрица Φd СПМ тогда может быть, например, получена с использованием Формулы (20).
В дальнейшем, снова предполагается, что не более чем один прямой источник звука активен в каждый момент времени на каждом участке полосы частот (единственный прямой источник), и что, следовательно, Φd является матрицей первого ранга.
Следует отметить, что утверждения, что не более чем один прямой источник звука активен, и что Φd является матрицей первого ранга, являются только допущениями. Независимо от того, верны или нет в действительности эти допущения, варианты осуществления настоящего изобретения задействуют нижеприведенные формулы, в частности, Формулы (32) и (33) даже в ситуациях, когда в действительности активен больше, чем один прямой источник звука, и даже когда в действительности точный результат для Φd таков, что Φd не является матрицей первого ранга. В таких ситуациях варианты осуществления настоящего изобретения тоже обеспечивают хорошие результаты, даже когда утверждения, что не более чем один прямой источник звука активен, и что Φd является матрицей первого ранга, не соответствуют действительности.
Таким образом, при допущении, что не более чем один прямой источник звука активен, и что Φd является матрицей первого ранга, Формула (23) может быть записана в виде
Формула (33) предоставляет решение для задачи условной оптимизации Формулы (22).
В вышеприведенных Формулах (32) и (33),
Чтобы определить HD(βi), должны быть определены
Помимо этого, Формула (33) может быть переформулирована (см. Формулу (20)) таким образом, что:
и, следовательно, таким образом, что должны быть определены только информация Φy СПМ по входным звуковым канальным сигналам и информация Φd СПМ по частям прямых сигналов входных звуковых канальных сигналов.
Помимо этого, Формула (33) может быть переформулирована (см. Формулу (20)) таким образом, что:
и, следовательно, таким образом, что должны быть определены только информация
Кроме того, Формула (33) может быть переформулирована таким образом, что:
и, следовательно, таким образом, что определяется HA(βi).
Формула (33c) предоставляет решение для задачи условной оптимизации Формулы (29).
Аналогично, Формулы (33a) и (33b) могут быть переформулированы в виде:
или в виде:
Следует отметить, что благодаря определению HD(βi) немедленно доступен фильтр HA(βi) в виде:
Кроме того, следует отметить, что, благодаря определению HA(βi), немедленно доступен фильтр HD(βi) в виде:
Как указано выше, чтобы определить HD(βi), например, в соответствии с Формулой (33), могут быть определены Φy и Φa:
Матрица СПМ звуковых сигналов Φa(m,k) может быть, например, оценена непосредственно, например, при помощи рекурсивного усреднения
где α является коэффициентом фильтра, который определяет время интеграции, или
например, при помощи кратковременного скользящего взвешенного усреднения
где L представляет собой, например, количество последних значений, используемых для вычисления СПМ, а b0 … bL являются коэффициентами фильтра, которые находятся, например, в диапазоне [0 1] (например, 0 ≤ коэффициент фильтра ≤ 1), или
например, при помощи кратковременного скользящего усреднения, в соответствии с Уравнением (34b), но при
Далее описывается оценка матрицы Φa окружающей СПМ в соответствии с вариантами осуществления.
Матрица Φa окружающей СПМ задается следующим образом
где
Одно из решений в соответствии с вариантом осуществления, например, получается с использованием постоянного значения, при помощи Формулы (21) и полагая
В вариантах осуществления, модуль 110 определения фильтра выполнен с возможностью определения
Вариантом с очень низкой вычислительной сложностью, в соответствии с одним из вариантов осуществления, является использование доли входной мощности и установление
где параметр g регулирует количество окружающей мощности, и 0 Согласно дополнительному варианту осуществления, оценка проводится на основании среднего арифметического. С учетом допущения, которое приводит к Формуле (20) и Формуле (21), можно продемонстрировать, что СПМ
В то время как tr{Φy} может быть непосредственно вычислен при помощи, например, рекурсивного интегрирования по Формуле (34a), или, например, кратковременного скользящего взвешенного усреднения по Формуле (34b), tr{Φd} оценивается как
В качестве альтернативы, СПМ
Помимо этого, следует отметить, что из Формул (20) и (35) следует, что
Согласно некоторым вариантам осуществления, Φd определяется путем определения
В дальнейшем рассматривается выбор для параметра βi.
βi является параметром согласования. Параметр βi согласования представляет собой число.
В некоторых вариантах осуществления, определяется только один параметр βi согласования, который действителен для всех входных звуковых канальных сигналов, и тогда этот параметр согласования рассматривается как информация согласования входных звуковых канальных сигналов.
В других вариантах осуществления, один параметр βi согласования определяется для каждого из двух или более входных звуковых канальных сигналов, и тогда эти два или более параметры согласования входных звуковых канальных сигналов вместе формируют информацию согласования.
В дополнительных вариантах осуществления, информация согласования может не представляться в виде параметра, а может быть представлена в подходящем формате иного типа.
Как отмечалось выше, параметр βi позволяет согласовать снижение окружающего сигнала и искажение прямого сигнала. Он может выбираться либо постоянным, либо зависящим от сигнала, как показано на Фиг. 6В.
Фиг. 6b иллюстрирует устройство согласно дополнительному варианту осуществления. Устройство содержит анализирующий банк 605 фильтров для преобразования входных звуковых канальных сигналов yt[n] из временной области в частотно-временную область. Помимо этого устройство содержит синтезирующий банк 625 фильтров для преобразования одного или нескольких выходных звуковых канальных сигналов (например, оцененных компонентов
Множество из K модулей 1111, …, 11K1 определения бета-параметра («вычисление Бета-параметра») определяют параметры βi. Помимо этого, множество из K модулей 1112, …, 11K2 вычисления субфильтров определяют субфильтры
Помимо этого, Фиг. 6В иллюстрирует множество субустройств 121, …, 12K обработки сигналов, причем каждое субустройство 121, …, 12K обработки сигнала выполнен с возможностью применения одного из субфильтров
В дальнейшем описываются различные сценарии использования регулирования параметра βi посредством анализа сигнала.
Сначала рассматриваются сигналы с переходами (зонами резкого изменения характеристик).
Согласно одному из вариантов осуществления, модуль 110 определения фильтра выполнен с возможностью определения информации (βi, βj) согласования в зависимости от того, присутствует ли переход, по меньшей мере, в одном из двух или более входных звуковых канальных сигналов.
Оценка входной матрицы СПМ лучше всего работает для стационарного сигнала. С другой стороны, разложение входного сигнала с переходами может привести к утечке компонента переходного сигнала в окружающий выходной сигнал. Регулирование βi посредством анализа сигнала на предмет степени нестационарности или вероятности присутствия перехода, таким образом, чтобы βi был меньше, когда сигнал содержит переходы, и больше в устойчивых частях, приводит к более единообразным выходным сигналам при применении фильтров HD(βi). Регулирование βi посредством анализа сигнала на предмет степени нестационарности или вероятности присутствия перехода, таким образом, чтобы βi был больше, когда сигнал содержит переходы, и меньше в устойчивых частях, приводит к более единообразным выходным сигналам при применении фильтров HA(βi).
Далее рассматриваются мешающие окружающие сигналы.
В одном из вариантов осуществления, модуль 110 определения фильтра выполнен с возможностью определения информации (βi, βj) согласования в зависимости от присутствия аддитивного шума, по меньшей мере, в одном сигнальном канале, через который передается один из двух или более входных звуковых канальных сигналов.
Предлагаемый способ раскладывает входные сигналы независимо от характера компонентов окружающего сигнала. Когда входные сигналы были переданы по зашумленным сигнальным каналам, целесообразно оценить вероятность присутствия мешающего аддитивного шума и регулировать βi таким образом, чтобы выходное DAR (отношение прямой/окружающий) увеличивалось.
Далее описывается регулирование интенсивности выходных сигналов.
Для того чтобы регулировать интенсивность выходных сигналов, βi может устанавливаться отдельно для i-го канала. Фильтры для вычисления окружающего выходного сигнала i-го канала задаются Формулой (31).
Для любых двух каналов, βi может быть вычислен, давая такой βi, чтобы СПМ остаточных окружающих сигналов ra,i и ra,j на i-ом и j-ом выходном канале были равны, т.е.,
или
В качестве альтернативы, βi может быть вычислен таким образом, чтобы СПМ выходных окружающих сигналов
Далее рассматривается использование информации панорамирования.
Для случая двух входных каналов, информация панорамирования представляет в количественной форме разницу интенсивности между обоими каналами на каждом участке полосы частот. Информация панорамирования может применяться для регулирования βi, чтобы регулировать воспринимаемый диапазон выходных сигналов.
В дальнейшем рассматривается коррекция выходных окружающих канальных сигналов.
Описанная обработка не гарантирует, что все выходные окружающие канальные сигналы имеют равные мощности в участке полосы частот. Чтобы гарантировать, что все выходные окружающие канальные сигналы имеют равные мощности в участке полосы частот, фильтры модифицируются как описано в дальнейшем для варианта осуществления с использованием фильтров HD, который описан выше. Ковариационная матрица окружающего выходного сигнала (содержащая автоматические СПМ каждого канала на главной диагонали) может быть получена следующим образом
Для того чтобы гарантировать, что СПМ всех выходных окружающих каналов равны, фильтры HD заменяются на
где G является диагональной матрицей, элементы которой на главной диагонали представляют собой
Для варианта осуществления с использованием фильтров HA, который описан выше, ковариационная матрица окружающего выходного сигнала (содержащая автоматические СПМ каждого канала на главной диагонали) может быть получена следующим образом
Хотя некоторые аспекты были описаны в контексте устройства, понятно, что эти аспекты также отражают описание соответствующего способа, при этом блок или устройство соответствуют этапу способа или функциональной характеристике этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также отражают и описание соответствующего блока или элемента или функциональную характеристику соответствующего устройства.
Разложенный сигнал согласно изобретению может быть сохранен на цифровой среде хранения или может быть передан по передающей среде, например, беспроводной передающей среде или проводной передающей среде, такой как сеть Интернет.
В зависимости от определенных требований реализации, варианты осуществления настоящего изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может быть выполнена с использованием цифровой среды хранения, например гибкого диска, DVD, CD, ПЗУ, ППЗУ, СППЗУ, ЭСППЗУ или запоминающего устройства с групповой перезаписью, с сохраненными на ней электронно-считываемыми управляющими сигналами, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой так, что выполняется соответственный способ.
Некоторые варианты осуществления согласно настоящему изобретению содержат долговременный носитель данных с электронно-считываемыми управляющими сигналами, которые способны взаимодействовать с программируемой компьютерной системой так, что выполняется один из способов, описанных в данном документе.
В большинстве случаев варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с программным кодом, причем программный код используется для выполнения одного из способов, при запуске компьютерного программного продукта на компьютере. Программный код может, например, храниться на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для выполнения одного из способов, описанных в данном документе, хранящуюся на машиночитаемом носителе.
Другими словами, тем самым, одним из вариантов осуществления способа согласно изобретению является компьютерная программа с программным кодом для выполнения одного из способов, описанных в данном документе, при запуске компьютерной программы на компьютере.
Тем самым, дополнительным вариантом осуществления согласно изобретению является носитель данных (или цифровая среда хранения или машиночитаемая среда), содержащий записанную на нем компьютерную программу для выполнения одного из способов, описанных в данном документе.
Тем самым, дополнительным вариантом осуществления согласно изобретению является поток данных или последовательность сигналов, представляющие компьютерную программу для выполнения одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, могут быть сформированы с возможностью передачи через соединение для обмена данными, например через сеть Интернет.
Дополнительный вариант осуществления содержит средство обработки, например компьютер или программируемое логическое устройство, выполненное с возможностью или приспособленное для выполнения одного из способов, описанных в данном документе.
Дополнительный вариант осуществления содержит компьютер с установленной на нем компьютерной программой для выполнения одного из способов, описанных в данном документе.
В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторых или всех функциональных возможностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, для того чтобы выполнить один из способов, описанных в данном документе. В большинстве случаев предпочтительно, чтобы способы выполнялись каким-либо аппаратным устройством.
Описанные выше варианты осуществления служат лишь для иллюстрации принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и деталей, описанных в данном документе, будут очевидными для специалистов в данной области техники. Намерение, соответственно, состоит в том, чтобы ограничиваться только объемом приведенной ниже патентной формулы, а не конкретными деталями, представленными посредством описания и объяснения вариантов осуществления в данном документе.
ПЕРЕЧЕНЬ ССЫЛОЧНЫХ ДОКУМЕНТОВ
[1] J.B. Allen, D.A. Berkeley, and J. Blauert, "Multimicrophone signal-processing technique to remove room reverberation from speech signals", журнал Американского акустического общества, том 62, 1977.
[2] C. Avendano and J.-M. Jot, "A frequency-domain approach to multi-channel upmix”, журнал Общества звукоинженеров, том 52, 2004.
[3] C. Faller, "Multiple-loudspeaker playback of stereo signals", журнал Общества звукоинженеров, том 54, 2006.
[4] J. Merimaa, M. Goodwin, and J.-M. Jot, "Correlation-based ambience extraction from stereo recordings”, материалы 123-й конвенции AES, 2007.
[5] Ville Pulkki, "Directional audio coding in spatial sound reproduction and stereo upmixing", материалы 28-й международной конференции AES, 2006.
[6] J. Usher and J. Benesty, "Enhancement of spatial sound quality: A new reverberation-extraction audio upmixer", протоколы IEEE по обработке звука, речи и языка, том 15, стр. 2141-2150, 2007.
[7] A. Walther and C. Faller, "Direct-ambient decomposition and upmix of surround sound signals", материалы WASPAA (Workshop on Applications of Signal Processing to Audio and Acoustics - семинар по применениям обработки сигналов к звуку и акустике) IEEE, 2011.
[8] C. Uhle, J. Herre, S. Geyersberger, F. Ridderbusch, A. Walter; and O. Moser, "Apparatus and method for extracting an ambient signal in an: apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program", заявка на патент США 2009/0080666, 2009.
[9] C. Uhle, J. Herre, A. Walther, O. Hellmuth, and C. Janssen, "Apparatus and method for generating an ambient signal from an audio signal, apparatus and method for deriving a multi-channel audio signal from an audio signal and computer program", заявка на патент США 2010/0030563, 2010.
[10] G. Soulodre, "System for extracting and changing the reverberant content of an audio input signal", Патент США 8,036,767, дата издания описания изобретения к патенту: 11 октября, 2011.
Изобретение относится к средствам для обработки звукового сигнала. Технический результат заключается в повышении эффективности многоканального прямого-окружающего разложения звукового сигнала. Каждый из двух или более входных звуковых канальных сигналов содержит части прямого сигнала и части окружающего сигнала. Устройство для генерирования одного или нескольких выходных звуковых канальных сигналов содержит модуль определения фильтра для определения фильтра путем оценки первой информации спектральной плотности мощности и оценки второй информации спектральной плотности мощности. Помимо этого устройство содержит процессор обработки сигналов для генерирования одного или нескольких выходных звуковых канальных сигналов путем применения фильтра на двух или более входных звуковых канальных сигналах. Первая информация спектральной плотности мощности указывает информацию спектральной плотности мощности по двум или более входным звуковым канальным сигналам. 3 н. и 12 з.п. ф-лы, 7 ил.