Устранение позиционной неоднозначности при формировании пространственного звука - RU2529591C2

Код документа: RU2529591C2

Чертежи

Показать все 11 чертежа(ей)

Описание

ОБЛАСТЬ ТЕХНИКИ

Варианты осуществления настоящего изобретения относятся к устранению неоднозначности при формировании пространственного звука. В частности, эти варианты осуществления настоящего изобретения относятся к устройству, способам и компьютерным программам, которые позволяют устранить неоднозначность в позиции источника звука при формировании пространственного звука.

УРОВЕНЬ ТЕХНИКИ

У человека два уха. Путь прохождения звукового сигнала от источника звука до левого уха обычно отличается от пути прохождения этого сигнала от источника звука до правого уха. Важным для человека фактором является разность во времени (разность фаз) прохождения этого сигнала от источника до левого уха и от источника до правого уха. Однако такой фактор, как разность фаз, сам по себе создает позиционную неоднозначность, поскольку местоположение источника звука для конкретной разности фаз обычно находится в круге, центр которого располагается на линии, проходящей через оба уха, а не в отдельной точке.

Голова и тело человека преломляют звуковые волны. Этот эффект является более анизотропным в направлениях "вверх/вниз", чем в направлениях "влево/вправо". Разность амплитуд (уровень разности) сигналов, проходящих по путям до левого и правого уха, может позволить переместить источник звука выше или ниже, но этот фактор не является достаточным для расположения источника спереди/сзади.

Существует проблема, связанная со способом формирования пространственного звука (объемного звучания) при использовании нескольких акустических систем (громкоговорителей). Может возникнуть ситуация, в которой конфигурация микрофона вносит неоднозначность в определении позиции источника звука, в результате чего, например, источник звука формируется позади слушателя, в то время как он должен располагаться перед слушателем, и источник звука, который должен располагаться позади слушателя, формируется перед слушателем.

КРАТКОЕ ОПИСАНИЕ РАЗЛИЧНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ НАСТОЯЩЕГО ИЗОБРЕТЕНИЯ

В соответствии с различными, но не обязательно всеми, вариантами осуществления настоящего изобретения предлагается способ, включающий: получение информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами; получение информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов; и обработку информации о фазе, а также информации выборки для определения информации управления звуковым сигналом с целью управления формированием пространственного звука с использованием зарегистрированных звуковых каналов.

В соответствии с различными, но не обязательно со всеми, вариантами осуществления настоящего изобретения предлагается компьютерная программа, после загрузки которой процессор выполняет следующие операции: обработка информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами, и информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов, для определения информации управления звуковыми сигналами с целью управления формированием пространственного звука с использованием зарегистрированных звуковых каналов.

В соответствии с различными, но не обязательно всеми, вариантами осуществления настоящего изобретения предлагается устройство, содержащее: схему, сконфигурированную для обработки информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами, и информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов, для определения информации управления звуковым сигналом с целью управления формированием пространственного звука с использованием зарегистрированных звуковых каналов.

В соответствии с различными, но не обязательно всеми, вариантами осуществления настоящего изобретения предлагается способ, включающий: регистрацию звуковых каналов с использованием изменяющейся во времени пространственной выборки; выполнение параметрического кодирования звука зарегистрированных звуковых каналов для формирования опорного звукового сигнала и параметров звукового сигнала; передачу в удаленный пункт назначения опорного звукового сигнала и параметров звукового сигнала и передачу в удаленный пункт назначения информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов.

В соответствии с различными, но не обязательно всеми, вариантами осуществления настоящего изобретения предлагается способ, включающий: прием параметризированного звукового сигнала; прием управляющей информации; формирование пространственного звука с использованием зарегистрированных звуковых каналов с использованием множества акустических систем, при этом управляющая информация используется для управления относительным усилением множества акустических систем с целью устранения неоднозначности в азимуте формируемого источника звука.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Для лучшего понимания различных примеров осуществления настоящего изобретения далее в примерах приводятся ссылки на прилагаемые чертежи, на которых:

на фиг.1 представлена блок-схема системы для регистрации многоканального звукового сигнала и формирования многоканального пространственного звука;

на фиг.2А, 2В и 2С показано изменение во времени расположения линейного массива микрофонов;

на фиг.3А показана таблица, в которой приведен пример информации управления устранением неоднозначности для источника звука, расположенного спереди;

на фиг.3В показана таблица, в которой приведен пример информации управления устранением неоднозначности для источника звука, расположенного сзади;

на фиг.4 схематично показан пример конфигурации акустической системы;

на фиг.5 схематично показан процесс формирования информации управления устранением неоднозначности для управления формированием пространственного звука с использованием зарегистрированных звуковых каналов;

на фиг.6 показана блок-схема декодера, который принимает входные сигналы от кодера;

на фиг.7 показана подробная блок-схема процесса формирования информации управления устранением неоднозначности;

на фиг.8 схематично показана реализация, в соответствии с которой информация управления устранением неоднозначности формируется в декодере;

на фиг.9 схематично показана реализация, в которой информация управления устранением неоднозначности формируется в кодере;

на фиг.10 показана блок-схема устройства, подходящего для использования в качестве компонента кодера или декодера; и

на фиг.11 схематично показан носитель для хранения компьютерной программы.

ПОДРОБНОЕ ОПИСАНИЕ РАЗЛИЧНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ НАСТОЯЩЕГО ИЗОБРЕТЕНИЯ

На фиг.1 представлена блок-схема системы 2 для регистрации многоканального звукового сигнала и формирования многоканального пространственного звука. Система 2 выполняет параметрическое кодирование многоканального звукового сигнала. Система 2 также позволяет устранять неоднозначность в азимуте источника звука.

Система 2, схематично показанная в этом примере, содержит нескольких блоков, а именно: блок 4 пространственной выборки для регистрации многоканального звукового сигнала; блок 6 параметризации для параметрического кодирования многоканального звукового сигнала с целью получения параметризованного звукового сигнала 7; блок 8 устранения неоднозначности для формирования информации 9 управления устранением неоднозначности и блок 10 формирования пространственного звука, который декодирует параметризованный звуковой сигнал 7 и использует информацию 9 управления устранением неоднозначности для улучшения процесса формирования пространственного звука.

Блок 4 пространственной выборки позволяет выполнять регистрацию (прием) N-канального звукового сигнала с помощью N пространственно разнесенных микрофонов. Каждый звуковой канал связан с микрофоном.

Блок 4 пространственной выборки позволяет получать изменяющуюся во времени пространственную выборку N зарегистрированных звуковых каналов. То есть в зависимости от времени изменяются позиции N микрофонов, связанных с N каналами. Этого можно добиться путем выборочной активизации подмножества набора микрофонов или путем перемещения массива микрофонов.

Например, процесс изменяющейся во времени пространственной выборки может выполняться с помощью фиксированного массива из N микрофонов, относительная позиция которых зафиксирована. Массив микрофонов затем размещается в фиксированном местоположении, однако изменяет свою ориентацию.

Такой массив микрофонов может представлять собой планарный массив микрофонов, установленных на плоскости, но не на одной прямой линии. В альтернативном варианте массив микрофонов может представлять собой линейный массив микрофонов, установленных на одной прямой линии.

В реализациях бинауральной или стереофонической системы массив 12 микрофонов может содержать пару микрофонов 14А, 14В, показанных на фиг.2А, 2В, 2С. Микрофоны 14А, 14В могут быть расположены друг от друга на фиксированном расстоянии d.

На фиг.2А, 2В и 2С показано изменение во времени расположения линейного массива 12. Например, как показано на фиг.2А-2С, возможны периодические колебания ориентации микрофонов.

Изменения ориентации массива 12 микрофонов могут обнаруживаться с помощью датчиков движения. Например, если пользователь надевает бинауральные микрофоны (микрофон располагается рядом с каждым ухом слушателя), то ориентация головы слушателя (ориентация массива микрофонов) по отношению к внешней среде отслеживается с помощью устройства слежения за головой. Таким образом, для измерения параметров местоположения массива может использоваться отдельное внешнее устройство.

Линейный массив 12 показан в плоскости чертежа, и его ориентация изменяется под углом θ в этой плоскости. В момент времени t1, показанный на фиг.2А, угол θ является отрицательным, и микрофон 14А находится перед микрофоном 14В. Затем в момент времени t2, показанный на фиг.2В, угол θ становится нулевым, и микрофон 14А находится на одном уровне с микрофоном 14В. В момент времени t3, показанный на фиг.2С, угол θ становится положительным, и микрофон 14В находится перед микрофоном 14А. Затем в момент времени t4, показанный на фиг.2В, угол θ становится нулевым, и микрофон 14А находится на одном уровне с микрофоном 14В. Далее в момент времени t5, показанный на фиг.2А, угол θ становится отрицательным, и микрофон 14А находится перед микрофоном 14В.

На фиг.2А-2С показано одно из возможных местоположений источника 16 звука. Это местоположение показано только для примера.

Путь 15 от источника 16 звука до микрофона 14А характеризуется временной задержкой T_A(t). Путь 17 от источника 16 звука до микрофона 14В характеризуется временной задержкой T_B(t).

Источник 16 звука расположен “перед” линейным массивом 12. Разность фаз φ между путем 15 звукового сигнала от источника 16 звука до микрофона 14А и путем 17 от источника 16 звука до микрофона 14В может вычисляться следующим образом: T_A(t)-T_B(t). Если микрофон 14А находится перед микрофоном 14В (фиг.2А), разность фаз является отрицательной. Если микрофон 14В находится перед микрофоном 14А (фиг.2С), разность фаз является положительной. Таким образом, если источник 16 звукового сигнала расположен “перед” линейным массивом 12, разность фаз φ имеет тот же знак, что и угол θ, определяющий ориентацию микрофонов. Если разность фаз φ отрицательна, угол θ ориентации также отрицателен. Если разность фаз φ положительна, угол θ ориентации также положителен. Эта взаимосвязь очевидно показана в таблице 1 на фиг.3А. Изменение разности фаз φ коррелирует с углом θ изменения ориентации.

Если же источник 16 звукового сигнала расположен “позади” линейного массива 12, разность фаз положительна, когда микрофон 14А находится перед микрофоном 14В (фиг.2А). Если микрофон 14В находится перед микрофоном 14А (фиг.2С), разность фаз является отрицательной. Таким образом, если источник 16 звукового сигнала расположен “позади” линейного массива 12, разность фаз φ имеет противоположный знак по отношению к знаку угла θ ориентации. Если разность фаз φ отрицательна, угол θ ориентации положителен. Если разность фаз φ положительна, угол θ ориентации отрицателен. Эта взаимосвязь показана в таблице 2 на фиг.3В. Изменение разности фаз φ находится в обратной корреляции с изменением угла θ ориентации.

Источник звука, характеризуемый разностью фаз φ, может находиться в неопределенном местоположении. Он может располагаться перед массивом 12 или позади него. Изменяющиеся во времени пространственные выборки, генерируемые перемещающимся массивом 12, позволяют устранить неоднозначность при определении местоположения источника звука. Например, если изменяющаяся во времени разность фаз φ находится в прямой корреляции с изменяющимся во времени углом θ ориентации, то источник 16 звукового сигнала расположен перед массивом 12, а если изменяющаяся во времени разность фаз φ находится в обратной корреляции с изменяющимся во времени углом θ ориентации, то источник 16 звукового сигнала расположен позади массива 12.

Таким образом, можно обрабатывать информацию о фазе и информацию выборки для формирования информации 9 управления устранением неоднозначности с целью управления формированием пространственного звука с использованием зарегистрированных звуковых каналов. Этот процесс выполняется блоком 8 устранения неоднозначности, показанным на фиг.1.

На фиг.5 показан алгоритм такого процесса 30. Процесс или способ 30 начинается в блоке 32, в котором осуществляется получение информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами. В примере, описанном со ссылкой на фиг.2А-2С, информация о фазе может быть выражена как изменяющаяся во времени разность фаз φ(t) (например, T_A(t)-T_B(t)).

В блоке 34 осуществляется получение информации 5 выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов. В примере, описанном со ссылкой на фиг.2А-2С, информация 5 выборки может быть выражена как изменяющийся во времени угол θ(t) ориентации.

Затем в блоке 36 обрабатывается информация о фазе и информация 5 выборки с целью определения информации 9 управления звуковым сигналом для управления формированием пространственного звука с использованием зарегистрированных звуковых каналов. Информация 9 управления звуковым сигналом позволяет устранить неоднозначность азимута/местоположения источника звука.

На фиг.7 показан алгоритм процесса 60, который является примером одного из множества процессов, подходящих для использования в блоке 36. В ходе выполнения процесса 60 в блоке 62 принимается информация 61 о фазе в качестве первого входного сигнала и информация 63 выборки в качестве второго входного сигнала.

В блоке 62 сравниваются характеристики синхронизации информации 61 о фазе и информации 63 выборки, а затем результаты сравнения интегрируются в блоке 64 для формирования информации 9 управления звуковым сигналом. Информация 9 управления звуковым сигналом позволяет устранить неоднозначность азимута/местоположения источника звука.

В примере, описанном со ссылкой на фиг.2А-2С, информация 61 о фазе может быть выражена как изменяющаяся во времени разность фаз φ(t), a информация 63 выборки может быть выражена как изменяющийся во времени угол θ(t) ориентации. Первый входной сигнал может быть выражен как {φ(t₁), φ(t₂), φ(t₃), φ(t₄), φ(t₅), …}. Второй входной сигнал может быть выражен как {θ(t₁), θ(t₂), θ(t₃), θ(t₄), θ(t₅) …}.

В примере, описанном со ссылкой на фиг.2А-2С, под сравнением характеристик подразумевается сравнение знаков разности фаз φ(t_n) и угла θ(t_n) ориентации.

Блок 62 сравнения может определить, например, что знаки разности фаз φ(t_n) и угла θ(t_n) ориентации совпадают или противоположны. Это можно определить путем получения информации о синхронном изменении знака разности фаз φ(t_n) и угла θ(t_n) ориентации в их среднем диапазоне и перемножения разности фаз φ(t_n) и угла θ(t_n) ориентации, как показано в столбце 4 таблиц 1 и 2, изображенных на фиг.3А и 3В. Результаты перемножения затем интегрируются в блоке 64 для формирования информации управления звуковым сигналом. Если знаки разности фаз φ(t_n) и угла θ(t_n) ориентации одинаковы, то результат интегрирования строго положительный. Если знаки разности фаз φ(t_n) и угла θ(t_n) ориентации противоположны, то результат интегрирования строго отрицательный. Таким образом, знак результата интегрирования может использоваться как информация 9 управления звуковым сигналом, которая позволяет устранять неоднозначность азимута/местоположения источника звука. Если знак положительный, источник звука расположен перед массивом 12 микрофонов (таблица 1, фиг.3А). Если знак отрицательный, источник звука расположен позади массива 12 микрофонов (таблица 2, фиг.3В).

В альтернативной реализации блок 62 сравнения может определять, например, одинаково ли направлены “векторы движения” для разности фаз φ(t_n) и угла θ(t_n) ориентации. Этот процесс может выполняться путем сравнения, например, величин φ(t_n)-φ(t_n-1) и θ(t_n)-θ(t_n-1) для каждого значения n. Далее значение φ(t_n)-φ(t_n-1) умножается на значение θ(t_n)-θ(t_n-1). Результаты перемножения затем интегрируются в блоке 64 для формирования информации управления звуковым сигналом.

В другом варианте осуществления настоящего изобретения, объясняемом со ссылкой на фиг.2А-2С, информация о фазе может быть выведена из изменяющейся во времени разности фаз φ(t). Изменяющаяся во времени разность фаз φ(t) может быть преобразована в направление Ω(t) на источник 16 звука с помощью, например, справочной таблицы. Поскольку изменяющийся во времени азимут Ω(t) источника звука и изменяющийся во времени угол θ(t) ориентации измеряются в одинаковых единицах, можно выполнять непосредственное сравнение между Ω(t) и θ(t) или между Ω(t_m)-Ω(t_m-1) и θ(t_m)-θ(t_m-1).

В некоторых вариантах осуществления настоящего изобретения информация 9 управления звуковым сигналом может быть основана на отдельной обработке 36 информации о фазе для различных частотных диапазонов и информации выборки. Изменяющаяся во времени разность фаз между зарегистрированными звуковыми каналами может быть одновременно получена для различных частотных диапазонов.

Преобразователь может использоваться для преобразования входных звуковых сигналов 3 (два или более входных звуковых каналов) из временной области в частотную область с использованием, например, декомпозиции блоком фильтров в дискретных временных кадрах. Блок фильтров может быть критично дискретизирован. Под критичной дискретизацией подразумевается, что объем данных (отсчетов в секунду) остается таким же в преобразованной области. С этой целью может использоваться преобразователь, применяемый для кодирования звукового сигнала.

Каналы входного звукового сигнала по отдельности преобразуются в частотную область, то есть в частотный поддиапазон для временного интервала входного кадра. Входные звуковые каналы сегментируются во временные интервалы во временной области и в поддиапазоны в частотной области.

Сегментация может выполняться единообразно во временной области для формирования единообразных временных интервалов, например временных интервалов одинаковой длительности. Сегментация может выполняться единообразно в частотной области для формирования единообразных поддиапазонов, например поддиапазонов одинакового размера, либо сегментация может выполняться неравномерно в частотной области для формирования неравномерной структуры поддиапазонов, например поддиапазонов различных размеров. В некоторых вариантах осуществления настоящего изобретения ширина поддиапазонов в низкочастотной области меньше ширины поддиапазонов в высокочастотной области.

Информация 9 управления звуковым сигналом может быть сгенерирована для каждого поддиапазона путем обработки 62 информации 61 о фазе для поддиапазона и информации 63 выборки. Это позволяет устранить несоответствие при одновременном использовании источников звука. Это может также повысить устойчивость системы при перемещении источников звука. В процессе обнаружения информации о фазе полезно выравнивать частотные диапазоны таким же образом, как это делается в кодере звукового сигнала, поскольку в некоторых вариантах осуществления настоящего изобретения процесс обнаружения фазы может быть интегрирован в блок анализа звуковой сцены.

На фиг.1 блок 10 формирования пространственного звука использует управляющую информацию 9, сформированную блоком 8 устранения неоднозначности, для управления формированием пространственного звука с помощью множества акустических систем 22 и для устранения неоднозначности в положении источника звука в формируемом пространственном звуке.

На фиг.4 схематично показан пример возможной, но не обязательно типовой, конфигурации 24 акустических систем. Акустические системы 22 распределены вокруг слушателя 20 для формирования пространственного звучания. Пространственный звук окружает слушателя 20 по меньшей мере с четырех сторон (например, спереди, сзади, слева, справа), благодаря чему формируется звуковое пространство 26.

В конфигурации 24 задействовано М акустических систем. Значение М может превышать значение N, равное количеству микрофонов в массиве 12 микрофонов. В альтернативном варианте значение М может быть меньше значения N (или равно этому значению). Одна или более акустических систем 22₁, 22₂ расположена перед слушателем 20, и одна или более акустических систем 22₃, 22₄ расположена позади слушателя 20. Одна или более акустических систем 22₁, 22₄ расположена слева от слушателя 20, и одна или более акустических систем 22₂, 22₃ расположена справа от слушателя 20. Хотя на фиг.4 показаны равномерно расположенные акустические системы 22₁, 22₂, 22₃, 22₄, следует принимать во внимание, что эти системы можно расположить другим образом и что может использоваться другое количество систем. Изменяющаяся во времени пространственная выборка, формируемая блоком 4 пространственной выборки, состоит из выборок в пространстве, эквивалентном формируемому звуковому пространству 26. То есть два или три ортогональных вектора, которые проходят в области звукового пространства выборок, также проходят в области формируемого звукового пространства 26.

Управляющая информация 9 позволяет принять решение об азимуте/местоположении источника звука в пределах формируемого звукового пространства 26.

Если управляющая информация 9, например, указывает на то, что источник звука должен быть перед слушателем 20, усиление расположенных спереди акустических систем 22₁, 22₂ этого звукового сигнала может быть увеличено, а уровень усиления звукового сигнала акустических систем 22₃, 22₄, расположенных сзади, может быть уменьшен. Более высокий уровень усиления расположенных спереди акустических систем позволяет сформировать источник звука перед слушателем в пределах звукового пространства.

Если управляющая информация 9, например, указывает на то, что источник звука должен быть позади слушателя 20, усиление расположенных сзади акустических систем этого звукового сигнала может быть увеличено, а уровень усиления звукового сигнала акустических систем, расположенных спереди, может быть уменьшен. Более высокий уровень усиления расположенных сзади акустических систем позволяет сформировать источник звука позади слушателя в пределах звукового пространства.

В некоторых ситуациях может потребоваться компенсация изменяющегося во времени поворота формируемого звукового пространства 26 в результате изменяющейся во времени пространственной выборки зарегистрированных звуковых каналов. Функция изменения в зависимости от времени может использоваться для обеспечения пространственной компенсации таким образом, чтобы формируемое звуковое пространство 26, определяемое множеством акустических систем 22, оставалось стационарным по отношению к слушателю 20. Функция изменения в зависимости от времени может представлять собой инверсную функцию преобразования для изменяющейся во времени пространственной выборки.

Функция изменения в зависимости от времени позволяет компенсировать изменяющееся во времени вращение звукового пространства с использованием полученной информации о выборке. Этого можно добиться путем изменения параметров звукового сигнала или фильтрации формируемого звукового сигнала. Например, может использоваться модифицированная функция передачи звука, связанная с головой (HRTF, head related transfer function), которая выполняет компенсацию фазы с компенсацией или без компенсации уровня.

В некоторых ситуациях компенсация поворота звукового пространства может не понадобиться. Например, если массив 12 микрофонов быстро колеблется с очень небольшим смещением. В другом примере имеется возможность создания конфигурации для увеличения скорости регистрации звукового сигнала с целью устранения неоднозначности, а не с целью кодирования звукового сигнала. Так, в конфигурациях, показанных на фиг.2А-2С, регистрация звукового сигнала для кодирования может выполняться только в том случае, когда массив размещен таким образом, как это показано на фиг.2В, в то время как регистрация звукового сигнала для устранения неоднозначности может выполняться, если массив размещен таким образом, как это показано на фиг.2А-2С, и при перемещении между различными позициями, показанными на фиг.2А-2С.

Блок 10 формирования пространственного звука в некоторых, но не во всех реализациях для управления пространственной выборкой может передавать сигнал 11 обратной связи в блок 4 пространственной выборки. Сигнал 11 обратной связи может, например, использоваться для адаптации изменяющейся во времени пространственной выборки, например, путем изменения направления перемещения массива микрофонов. Это может способствовать выполнению процесса устранения неоднозначности путем управления перемещением массива 12 микрофонов таким образом, чтобы они размещались в пространстве, соответствующем формируемому звуковому пространству 26, определенному позициями акустических систем 22.

Блок 6 параметризации может использоваться, если для хранения или связи требуется уменьшить полосу частот, занимаемую звуковыми каналами. Блок 6 параметризации параметрически кодирует N звуковых каналов 3 для выработки параметризованного звукового сигнала 7. Затем блок 10 формирования пространственного звука принимает параметризованный звуковой сигнал и декодирует его с целью получения пространственного звукового сигнала.

Могут использоваться различные типы параметрического кодирования звукового сигнала, такие как направленное кодирование звукового сигнала (DirAC, Directional Audio Coding) или бинауральное кодирование сигнала (ВСС, binaural cue coding).

На фиг.6 схематично показан кодер 42, который передает параметризированные звуковые сигналы 47, 45 в удаленный декодер 40.

Показанный кодер 42 многоканального звукового сигнала является в этом примере параметрическим кодером, который выполняет кодирование в соответствии с определенной параметрической моделью с использованием анализа многоканального звукового сигнала.

Параметрическая модель в этом примере представляет собой модель, основанную на восприятии, которая позволяет выполнять сжатие с потерей данных и уменьшать полосу частот.

В этом примере кодер 42 выполняет кодирование пространственного звукового сигнала с использованием технологии параметрического кодирования, такой как параметризация при бинауральном кодировании сигнала (ВСС). Обычно модели параметрического кодирования звукового сигнала, такие как ВСС, представляют исходный звуковой сигнал в виде сигнала с уменьшенным количеством звуковых каналов (downmix), сформированных из каналов исходного сигнала, например, в виде монофонического или двухканального (стерео) суммарного сигнала, совместно с битовым потоком параметров, описывающих пространственный образ. Сигнал с уменьшенным количеством звуковых каналов, содержащий несколько каналов, может рассматриваться как несколько отдельных сигналов с уменьшенным количеством звуковых каналов.

Преобразователь 44 выполняет преобразование входных звуковых сигналов 3 (два или более входных звуковых каналов) из временной области в частотную область с использованием, например, декомпозиции блоком фильтров в дискретных временных кадрах. Блок фильтров может быть критично дискретизирован. Под критичной дискретизацией подразумевается, что объем данных (отсчетов в секунду) остается таким же в преобразованной области.

Блок фильтров может быть реализован, например, в виде перекрывающего преобразователя, позволяющего осуществлять плавный переход от одного кадра к другому, если формирование окон для блоков, то есть кадров, осуществляется как часть процесса декомпозиции поддиапазонов. В альтернативном варианте декомпозиция может быть реализована в виде операции аналоговой фильтрации с использованием, например, фильтров FIR в многофазном формате, позволяющем эффективно выполнять вычислительный процесс.

С точки зрения восприятия и психоакустики предпочтительно выбирать структуру поддиапазона, близкую к шкале ERB (equivalent rectangular bandwidth, эквивалентная прямоугольная полоса частот). Однако может применяться любой способ разделения на поддиапазоны.

Выходной сигнал преобразователя 44 подается на анализатор 48 звуковой сцены, который формирует параметры 45 сцены. Звуковая сцена анализируется в области преобразования, и соответствующие параметры 45 извлекаются и обрабатываются для передачи или сохранения с целью последующего использования.

Анализатор 48 звуковой сцены использует модель межканального предсказания для формирования межканальных параметров 45. В набор межканальных параметров могут, например, входить такие параметры, как разность уровней между каналами (ILD, inter-channel level difference) и разность фаз между каналами (ICPD, inter-channel phase difference). Разность фаз между каналами (ICPD) может выражаться в виде разности времени прохождения сигнала по различным каналам (ITD, inter-channel time difference). Кроме того, может быть определена межканальная когерентность (ICC, inter-channel coherence), связанная с частотным поддиапазоном для входного кадра, между выбранными парами каналов. Межканальные параметры могут оцениваться в пределах частотно-временного интервала области преобразования, то есть в частотном поддиапазоне для входного кадра. Обычно параметры ILD, ICPD/ITD и ICC определяют для каждого частотно-временного интервала входного сигнала или для подмножества частотно-временных интервалов. Подмножество частотно-временных интервалов может представлять, например, наиболее важные воспринимаемые частотные компоненты, (подмножество) частотных интервалов подмножества входных кадров или любое подмножество частотно-временных интервалов, представляющих определенный интерес. Степень важности межканальных параметров с точки зрения восприятия может отличаться для различных частотно-временных интервалов. Кроме того, степень важности межканальных параметров с точки зрения восприятия может отличаться для входных сигналов с различными характеристиками. Например, для некоторых входных сигналов параметр ITD может представлять собой параметр пространственного образа, имеющий определенную значимость.

Параметры ILD и ITD могут быть определены на основе сравнения входного звукового канала и опорного канала, обычно на основе сравнения каждого входного звукового канала и опорного входного звукового канала. Параметр ICC обычно определяется отдельно для каждого канала, сравниваемого с опорным каналом.

Далее приводятся некоторые подробности, относящиеся к подходу ВСС, на примере с двумя каналами L, R и одним сигналом, полученным путем уменьшения числа каналов. Однако такое представление процесса может быть обобщено для большего количества входных звуковых каналов и/или для конфигурации, в которой используется несколько сигналов, полученных путем уменьшения числа каналов.

Значение разности уровней между каналами (ILD) для каждого поддиапазона ∆L_n обычно рассчитывается следующим образом:

$Δ L_{n} = 10 \log_{10} (\frac{S_{n}^{L T} S_{n}^{L}}{S_{n}^{R T} S_{n}^{R}}), (1)$

где $S_{n}^{L}$

S_{n}^{R}

являются соответственно сигналами левого и правого каналов временной области в поддиапазоне n.

Разность времени прохождения сигнала по различным каналам (ITD), то есть задержка между двумя входными звуковыми каналами, может определяться следующим образом:

$τ_{n} = \arg \max_{d} {Φ_{n} (k, d)} (2)$

где Ф_n(k,d) представляет собой нормализованную корреляцию:

$Φ_{n} (k, d) = \frac{S_{n}^{L} {(k - d_{1})}^{T} S_{n}^{R} (k - d_{2})}{\sqrt{(S_{n}^{L} {(k - d_{1})}^{T} S_{n}^{L} (k - d_{1})) (S_{n}^{R} {(k - d_{2})}^{T} S_{n}^{R} (k - d_{2}))}} (3)$

где

$\begin{array}{l} d_{1} = \max {0, - d} \\ d_{2} = \max {0, d} \end{array} (4)$

Нормализованная корреляция, вычисляемая по формуле (3), фактически является параметром межканальной когерентности (IC, inter-channel coherence). Этот параметр может использоваться для регистрации внешних компонентов, которые не коррелированны со звуковыми компонентами, представленными параметрами фазы и амплитуды в формулах (1) и (2).

В альтернативном варианте коэффициенты ВСС могут определяться посредством дискретного преобразования Фурье (DFT, Discrete Fourier Transform). При использовании, например, оконного преобразования Фурье для коротких интервалов времени (STFT, Short Time Fourier Transform) вышеописанные сигналы поддиапазонов конвертируются в группы коэффициентов преобразования. $S_{n}^{L}$

S_{n}^{R}

представляют собой соответственно спектральные коэффициенты двух входных звуковых каналов L и R для поддиапазона n заданного кадра анализа. Параметр ILD в области преобразования может быть определен так же, как и в формуле (1):

$Δ L_{n} = 10 \log_{10} (\frac{S_{n}^{L *} S_{n}^{L}}{S_{n}^{R *} S_{n}^{R}}), (5)$

где знак * обозначает операцию комплексного сопряжения.

Однако разностью времени прохождения сигнала (ITD) можно более удобно оперировать в виде разности фаз между каналами (1CPD, inter-channel phase difference):

$ϕ_{n} = ∠ (S_{n}^{L *} S_{n}^{R}) (6)$

Значение межканальной когерентности может вычисляться в частотной области с использованием формулы, схожей с формулой (3), применяемой при вычислении во временной области:

$Φ_{n} = \frac{S_{n}^{L *} S_{n}^{R}}{\sqrt{(S_{n}^{L *} S_{n}^{L}) (S_{n}^{R *} S_{n}^{R})}} (7)$

В альтернативном варианте определение ВСС, основанное на формулах (5)-(7) с использованием DFT, может потребовать значительно меньшего объема вычислений, если применяется оценка фазы ICPD спектральных коэффициентов в области DFT, а не оценка ITD во временной области с учетом корреляции.

Параметры разности уровня и времени/фазы представляют общие компоненты пространственного звука, то есть они могут учитываться для моделирования местоположений источника звука в пространстве. В основном параметры ILD и ITD определяют коэффициенты панорамирования объемного звучания.

С другой стороны, параметр когерентности зависит от взаимосвязи между когерентным и декоррелированным звуковым сигналом. Уровень поздней реверберации источников звука вследствие, например, воздействия стен помещения и окружающий звуковой сигнал, распределенный между входными каналами, могут оказать значительное влияние на восприятие пространственного звукового сигнала.

Микшер 46 формирует микшированный сигнал(ы) 47 в виде комбинации каналов входных сигналов.

Микшированный сигнал обычно формируется в виде линейной комбинации каналов входного сигнала в области преобразования. Например, в случае двух каналов микшированный сигнал может создаваться в результате простого усреднения сигналов левого и правого канала:

$S_{n} = \frac{1}{2} (S_{n}^{L} + S_{n}^{R})$

Существуют также другие средства создания микшированного сигнала. В одном из примеров левый и правый входные каналы перед объединением могут взвешиваться таким образом, чтобы сохранялась энергия сигнала. Это может быть удобно, например, если энергия сигнала в одном из каналов значительно меньше уровня энергии в другом канале или если уровень энергии в одном из каналов близок к нулю.

Дополнительно можно использовать обратный преобразователь для формирования микшированного звукового сигнала 47 во временной области.

В альтернативном варианте обратный преобразователь может отсутствовать. Выходной микшированный звуковой сигнал 47 в результате кодируется в частотной области.

Выходными сигналами многоканального или стереофонического кодера обычно являются микшированный сигнал или сигналы 47 и параметры 45 сцены. Такое кодирование может выполняться отдельными блоками кодирования (не показанными на чертеже) для сигналов 47 и 45. Любой монофонический (или стереофонический) кодер звукового сигнала подходит для микшированного звукового сигнала 47, в то время как для межканальных параметров 45 требуется специфический кодер параметров ВСС. К межканальным параметрам могут, например, относиться один или более следующих параметров: разность уровней между каналами (ILD) и разность фаз между каналами (ICPD), например разность времени прохождения сигнала по различным каналам (ITD).

Разность времени прохождения сигнала по различным каналам (ITD, inter-channel time difference) может использоваться в качестве информации о фазе в блоке 32, показанном на фиг.5.

Декодер 52, который обычно отделен от кодера 42 каналом 74 связи, содержит блок 54 синтеза и блок 56 обработки параметров. Синтез сигнала, например синтез ВСС, может выполняться в блоке 54 синтеза на основе параметров, предоставляемых блоком 56 обработки параметров.

Кадр микшированного сигнала (сигналов) 47, состоящий из N отсчетов S₀, …, S_n-1, преобразуется в N спектральных отсчетов S₀, …, S_n-1, например, с помощью преобразования DTF.

Межканальные параметры 45, например описанные выше параметры ILD и/или ITD, из блока 56 обработки параметров подаются в блок 54 синтеза для создания пространственных звуковых сигналов, в данном примере - стереофонического звукового сигнала, в множестве (N) выходных звуковых каналов 53.

Если микширование двухканального сигнала выполняется согласно приведенной выше формуле и ILD ∆L_n определяется как разность уровней левого и правого каналов, то выходные звуковые сигналы левого и правого каналов могут быть синтезированы для поддиапазона n следующим образом:

$S_{n}^{L} = \frac{1}{2} \frac{Δ L_{n}}{Δ L_{n} + 1} S_{n} e^{- j \frac{2 π n τ_{n}}{2 N}}$

$S_{n}^{R} = \frac{1}{2} \frac{Δ L_{n}}{Δ L_{n} + 1} S_{n} e^{j \frac{2 π n τ_{n}}{2 N}}$

где S_n представляет собой вектор спектральных коэффициентов реконструированного микшированного сигнала,

$S_{n}^{L}$

S_{n}^{R}

соответственно являются спектральными коэффициентами стереофонического сигнала левого и правого каналов.

Следует отметить, что с помощью синтеза с использованием зависящего от частоты уровня и параметров задержки воссоздаются компоненты звукового сигнала, представляющие источники звукового сигнала. Параметры окружения могут отсутствовать, и они могут быть синтезированы, например, с помощью параметра ICC, определяющего межканальную когерентность.

Способ синтеза компонента окружения, основанный на параметре когерентности, включает декорреляцию сигнала для создания последнего сигнала реверберации. В реализации может использоваться фильтрация выходных звуковых каналов с помощью фильтров произвольной фазы и добавление результата к выходному сигналу. Если различные задержки фильтров применяются к выходным звуковым каналам, то создается набор декоррелированных сигналов.

Многоканальный выходной сигнал блока 54 синтеза может смешиваться смесителем 58 для формирования множества (К) выходных звуковых каналов 57.

Это позволяет формировать пространственный звук в соответствии с различными форматами пространственного смешивания сигналов. Например, смеситель 58 может отвечать за информацию 9 управления звуковым сигналом для изменения способа смешивания, а также характера и количества выходных звуковых каналов 57. Источник информации 9 управления звуковым сигналом описывается ниже со ссылками на фиг.8 и 9. На практике это означает, что, например, источник звука может принудительно перемещаться, например, в местоположение, расположенное перед слушателем, путем управления усилением акустических систем, относящихся к этому источнику звука. Если используются наушники, то пространственное звучание может достигаться за счет выполнения функции HRTF.

На фиг.8 схематично показан вариант осуществления настоящего изобретения, в котором блок пространственной выборки и блок параметризации реализованы в кодере 70, а блок 8 устранения неоднозначности и блок 10 формирования пространственного звука реализованы в декодере 72. Кодер 70 передает параметризированный звуковой сигнал 7 по каналу 74 связи в декодер 72. Кодер 70 через канал 74 связи передает в декодер 72 информацию 5 выборки, связанную с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов.

На фиг.9 схематично показан вариант осуществления настоящего изобретения, в котором блок 4 пространственной выборки, блок 6 параметризации и блок 8 устранения неоднозначности реализованы в кодере 70, а блок 10 формирования пространственного звука реализован в декодере 72. Кодер 70 передает кодированный звуковой сигнал 7 по каналу 74 связи в декодер 72. Кодер 70 генерирует и передает информацию 9 управления звуковым сигналом через канал 74 связи в декодер 72. Декодер 72 принимает параметризированный звуковой сигнал 7 и информацию 9 управления звуковым сигналом. Кодер 70 также может передавать информацию 5 выборки для выполнения пространственной компенсации с помощью декодера 72.

Внутриканальное представление может быть реализовано посредством параметризации DirAC, а не с помощью параметризации кодирования стереофонического сигнала (ВСС). При использовании параметризации DirAC направление поступления сигнала от источника звука определяется для каждого частотно-временного компонента многоканального звукового сигнала, например, в виде разницы времени прохождения сигналов между каналами и разницы уровней каналов. Требуемая информация о направлении затем может быть извлечена с применением закона панорамирования. Одно из преимуществ параметризации DirAC заключается в том, что устранение неоднозначности в направлении поступления сигналов для поддиапазона можно осуществить с помощью кодера. В этом случае другую дополнительную информацию (информацию 9 управления звуковым сигналом) не требуется передавать по каналу 74 связи в декодер.

В формате DirAC вектор направления (азимут θ и угол возвышения φ (и диффузность ψ)) связан с каждым частотным поддиапазоном. Формат DirAC может быть сгенерирован из сигналов, записанных с использованием двух микрофонов, или на основе параметров, закодированных посредством ВСС, с использованием, как это описано выше, устранения позиционного несоответствия для однозначного расположения источника звука перед выполнением кодирования DirAC.

На фиг.10 показана блок-схема устройства 80, подходящего для использования в качестве компонента кодера или декодера.

Процессор 82 сконфигурирован для чтения данных из памяти 84 и записи данных в память. Процессор 82 может также содержать выходной интерфейс, через который этот процессор выводит данные и/или команды, а также входной интерфейс, через который данные и/или команды передаются в процессор 82.

В памяти 84 хранится компьютерная программа 86, состоящая из программных инструкций, которые после загрузки в процессор 82 управляют функционированием устройства. Компьютерные программные инструкции 86 реализуют логические процессы и формируют подпрограммы, которые позволяют устройству 80 выполнять операции способов, показанных на фиг.1, 5, 6-9. Процессор 82 может считывать из памяти 84 инструкции для загрузки и выполнения компьютерной программы 86.

На фиг.11 показано, что компьютерная программа может устанавливаться в устройстве 80 с помощью любого подходящего средства 88 доставки. К средствам 88 доставки может относиться, например, машиночитаемый носитель информации, компьютерное программное изделие, устройство памяти, носитель информации, такой как CD-ROM или DVD, изделие, которое физически хранит компьютерную программу 86. В качестве механизма доставки может использоваться сигнал, сконфигурированный для надежной передачи компьютерной программы 86. Устройство 80 может распространять или передавать компьютерную программу 86 в виде компьютерного сигнала передачи данных.

Хотя память 84 показана на чертеже в виде отдельного компонента, она может быть реализована в виде одного или более компонентов, все или некоторые из которых могут быть выполнены в виде встроенных/сменных модулей и/или могут обеспечивать постоянное/полупостоянное/динамическое/кэшируемое хранение данных.

Термины “машиночитаемый носитель информации”, “компьютерное программное изделие”, “физически записанная компьютерная программа” и т.д. или “контроллер”, “компьютер”, “процессор” и т.д. относятся не только к компьютерам с различными архитектурами, такими как однопроцессорная/многопроцессорная архитектура и последовательная (неймановская)/параллельная архитектура, но также и к специализированным схемам, таким как программируемые пользователем вентильные матрицы (FPGA, field programmable gate array), индивидуально спроектированные специализированные интегральные схемы (ASIC, Application Specific Integrated Circuit), сигнальные процессоры и другие устройства. Ссылки на компьютерную программу, инструкции, код и т.д. следует рассматривать как программное обеспечение для программируемого процессора или микропрограммное обеспечение, такое как, например, программируемые компоненты аппаратного устройства, инструкции для процессора или конфигурируемые настройки для непрограммируемого устройства, вентильной матрицы или программируемого логического устройства и т.д.

Устройство 80 может быть выполнено в виде модуля. В данном описании под “модулем” понимается блок или устройство, не включающий определенные части/компоненты, которые могут быть добавлены конечным производителем или пользователем.

Блоки, показанные на фиг.5, могут представлять шаги способа и/или секции кода компьютерной программы 86. Показанный конкретный порядок блоков не обязательно является требуемым или предпочтительным порядком расположения блоков и может изменяться. Кроме того, некоторые шаги могут быть опущены.

Хотя некоторые варианты осуществления настоящего изобретения описаны выше со ссылкой на различные примеры, следует принимать во внимание, что возможны изменения приведенных примеров в рамках изобретения, изложенного в формуле изобретения.

Хотя в некоторых из описанных выше примеров рассматривается линейный массив микрофонов, которые колеблются в направлении "вперед-назад", и, следовательно, объясняется способ устранения несоответствий позиционирования звука спереди и сзади, в других вариантах осуществления настоящего изобретения пространственная выборка может осуществляться в другой двумерной плоскости. Например, линейный массив микрофонов, который колеблется в направлении "сверху вниз", может использоваться для устранения несоответствий позиционирования звука сверху и снизу. В других вариантах осуществления настоящего изобретения пространственная выборка может выполняться в трех измерениях, например, путем вращения массива микрофонов или выборочной активизации микрофонов в трехмерном массиве. Описанные выше признаки могут сочетаться в иных комбинациях, отличающихся от явно описанных.

Хотя выше функции были описаны со ссылкой на определенные признаки, эти функции могут выполняться с использованием других признаков, независимо от того, были ли эти признаки описаны.

Хотя выше признаки были описаны со ссылкой на определенные варианты осуществления, эти признаки могут также использоваться в других вариантах, независимо от того, были ли эти варианты описаны.

Хотя в приведенном описании предпринята попытка обратить внимание на те признаки изобретения, которые имеют особое значение, следует иметь в виду, что заявитель притязает на защиту патентом любых отличительных признаков или комбинации признаков, упомянутых выше и/или показанных на чертежах, независимо от того, был ли сделан на этом определенный акцент.

Реферат

Предлагается способ, включающий получение информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами; получение информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов; и обработку информации о фазе и информации выборки для определения информации управления звуковым сигналом с целью управления формированием пространственного звука с использованием зарегистрированных звуковых каналов. 8 н. и 30 з.п. ф-лы, 14 ил.

Формула

1. Способ формирования пространственного звука, включающий:
получение информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами;
получение информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов; и
обработку информации о фазе и информации выборки для определения информации управления звуковым сигналом, предназначенной для управления формированием пространственного звука с использованием зарегистрированных звуковых каналов;
при этом в процессе обработки сравнивают характеристику информации о фазе и соответствующую характеристику информации выборки и
характеристика зависит от знака изменения разности фаз и знака изменения пространственной выборки.

2. Способ по п.1, отличающийся тем, что в процессе обработки выполняют
определение первого вектора движения на основе информации о фазе;
определение второго вектора движения для пространственной выборки и
сравнение первого и второго векторов движения.

3. Способ по п.1, отличающийся тем, что в процессе обработки выполняют
определение направления прихода звукового сигнала на основе информации о фазе;
определение первого вектора движения для направления прихода звукового сигнала;
определение второго вектора движения для пространственной выборки и
сравнение первого и второго векторов движения.

4. Способ по п.1, отличающийся тем, что информация о фазе представляет собой параметр параметрического кодирования звукового сигнала.

5. Способ по п.1 или 2, включающий также:
определение информации о фазе для каждого из множества частотных поддиапазонов и
обработку информации о фазе для каждого из множества частотных поддиапазонов и информации выборки для определения информации управления звуковым сигналом для управления формированием пространственного звука с использованием зарегистрированных звуковых каналов.

6. Способ по п.1, также включающий выполнение изменяющейся во времени пространственной выборки зарегистрированных звуковых каналов путем выборки звукового сигнала при различных позициях микрофона в различные моменты времени, при этом каждому звуковому каналу соответствует свой микрофон.

7. Способ по п.6, отличающийся тем, что изменяющаяся во времени пространственная выборка звуковых сигналов формируется с использованием фиксированного массива микрофонов, расположенного в фиксированном местоположении и изменяющего свою ориентацию.

8. Способ по п.7, отличающийся тем, что фиксированный массив микрофонов содержит пару микрофонов, расположенных на фиксированном расстоянии друг от друга.

9. Способ по любому из пп.6-8, также включающий передачу информации управления звуковым сигналом в удаленный пункт назначения для формирования пространственного звука с использованием зарегистрированных звуковых каналов.

10. Способ по любому из пп.6-8, также включающий выполнение параметрического кодирования звукового сигнала для формирования опорного звукового сигнала и параметров звукового сигнала и передачу в удаленный пункт назначения опорного звукового сигнала и параметров звукового сигнала для формирования пространственного звука с использованием зарегистрированных звуковых каналов.

11. Способ по п.1, включающий также использование управляющей информации для устранения неоднозначности в азимуте источника звука в формируемом пространственном звуке.

12. Способ по любому из пп.6-8, также включающий выполнение компенсации с учетом изменяющейся во времени пространственной выборки зарегистрированных звуковых каналов.

13. Способ по п.1, включающий также выполнение динамической адаптации с учетом изменяющейся во времени пространственной выборки зарегистрированных звуковых каналов.

14. Способ по п.1, также включающий выполнение адаптации изменяющейся во времени пространственной выборки зарегистрированных звуковых каналов таким образом, чтобы микрофоны размещались в пространстве, соответствующем пространству, определенному позициями акустических систем, используемых для формирования пространственного звука.

15. Машиночитаемый носитель, содержащий компьютерную программу, которая после загрузки в процессор управляет им так, что он
обрабатывает информацию о фазе, зависящую от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами, и информацию выборки, связанную с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов, для определения информации управления звуковым сигналом, предназначенной для управления формированием пространственного звука с использованием зарегистрированных звуковых каналов;
при этом в процессе обработки сравнивают характеристику информации о фазе и соответствующую характеристику информации выборки и
характеристика зависит от знака изменения разности фаз и знака изменения пространственной выборки.

16. Машиночитаемый носитель по п.15, отличающийся тем, что после загрузки компьютерной программы в процессор она управляет им так, что он выполняет способ по любому из пп.1-14.

17. Устройство для формирования пространственного звука, содержащее:
схему, сконфигурированную для обработки:
информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами; и
информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов,
для определения информации управления звуковым сигналом, предназначенной для управления формированием пространственного звука с использованием зарегистрированных звуковых каналов;
при этом упомянутая схема сконфигурирована для сравнения характеристики информации о фазе и соответствующей характеристики информации выборки и
характеристика зависит от знака изменения разности фаз и знака изменения пространственной выборки.

18. Устройство по п.17, отличающееся тем, что упомянутая схема сконфигурирована для:
определения первого вектора движения на основе информации о фазе;
определения второго вектора движения для пространственной выборки и
сравнения первого и второго векторов движения.

19. Устройство по п.17, отличающееся тем, что упомянутая схема сконфигурирована для:
определения направления прихода звукового сигнала на основе информации о фазе;
определения первого вектора движения для направления прихода звукового сигнала;
определения второго вектора движения для пространственной выборки и
сравнения первого и второго векторов движения.

20. Устройство по п.17, отличающееся тем, что информация о фазе представляет собой параметр параметрического кодирования звукового сигнала.

21. Устройство по п.17, отличающееся тем, что упомянутая схема сконфигурирована для определения информации о фазе для каждого из множества частотных поддиапазонов и обработки информации о фазе для каждого из множества частотных поддиапазонов и информации выборки для определения информации управления звуковым сигналом, предназначенной для управления формированием пространственного звука с использованием зарегистрированных звуковых каналов.

22. Устройство по п.17, отличающееся тем, что упомянутая схема сконфигурирована для выполнения изменяющейся во времени пространственной выборки зарегистрированных звуковых каналов путем выборки звукового сигнала при различных позициях микрофона в различные моменты времени, при этом каждому звуковому каналу соответствует свой микрофон.

23. Устройство по п.22, отличающееся тем, что оно сконфигурировано для управления изменением ориентации фиксированного массива микрофонов, расположенного в фиксированном местоположении, для выполнения изменяющейся во времени пространственной выборки звуковых сигналов.

24. Устройство по п.23, отличающееся тем, что фиксированный массив микрофонов содержит пару микрофонов, расположенных на фиксированном расстоянии друг от друга.

25. Устройство по п.17, отличающееся тем, что оно сконфигурировано для передачи информации управления звуковым сигналом в удаленный пункт назначения для формирования пространственного звука с использованием зарегистрированных звуковых каналов.

26. Устройство по п.17, отличающееся тем, что оно сконфигурировано для выполнения параметрического кодирования звукового сигнала для формирования опорного звукового сигнала и параметров звукового сигнала и передачи в удаленный пункт назначения опорного звукового сигнала и параметров звукового сигнала для формирования пространственного звука с использованием зарегистрированных звуковых каналов.

27. Устройство по п.17, отличающееся тем, что оно сконфигурировано для использования управляющей информации для устранения неоднозначности в азимуте источника звука в формируемом пространственном звуке.

28. Устройство по п.17, отличающееся тем, что оно сконфигурировано для выполнения компенсации для изменяющейся во времени пространственной выборки зарегистрированных звуковых каналов.

29. Устройство по п.17, отличающееся тем, что упомянутая схема сконфигурирована для динамической адаптации изменяющейся во времени пространственной выборки зарегистрированных звуковых каналов.

30. Устройство по п.17, отличающееся тем, что упомянутая схема сконфигурирована для выполнения адаптации изменяющейся во времени пространственной выборки зарегистрированных звуковых каналов таким образом, что микрофоны размещаются в пространстве, соответствующем пространству, определенному позициями акустических систем, используемых для формирования пространственного звука.

31. Устройство для формирования пространственного звука, содержащее:
средства для получения информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами;
средства для получения информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов; и
средства для обработки информации о фазе и информации выборки для определения информации управления звуковым сигналом, предназначенной для управления формированием пространственного звука с использованием зарегистрированных звуковых каналов;
при этом в процессе обработки сравнивают характеристику информации о фазе и соответствующую характеристику информации выборки и
характеристика зависит от знака изменения разности фаз и знака изменения пространственной выборки.

32. Способ формирования пространственного звука, включающий:
регистрацию звуковых каналов с использованием изменяющейся во времени пространственной выборки;
выполнение параметрического кодирования звука в зарегистрированных звуковых каналах для формирования опорного звукового сигнала и параметров звукового сигнала;
передачу в удаленный пункт назначения опорного звукового сигнала и параметров звукового сигнала и
передачу в удаленный пункт назначения информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов.

33. Способ по п.32, отличающийся тем, что процесс регистрации звуковых каналов с использованием изменяющейся во времени пространственной выборки включает выполнение выборки звуковых сигналов при различных позициях микрофона в различные моменты времени, при этом каждому звуковому каналу соответствует свой микрофон.

34. Способ по п.33, отличающийся тем, что изменяющаяся во времени пространственная выборка звуковых сигналов осуществляется с использованием фиксированного массива микрофонов, расположенного в фиксированном местоположении и изменяющего свою ориентацию.

35. Способ по п.34, отличающийся тем, что фиксированный массив микрофонов содержит пару микрофонов, расположенных на фиксированном расстоянии друг от друга.

36. Устройство для формирования пространственного звука, содержащее:
средства для регистрации звуковых каналов с использованием изменяющейся во времени пространственной выборки;
средства для выполнения параметрического кодирования зарегистрированных звуковых каналов для формирования опорного звукового сигнала и параметров звукового сигнала;
средства для передачи в удаленный пункт назначения опорного звукового сигнала и параметров звукового сигнала и
средства для передачи в удаленный пункт назначения информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов.

37. Способ формирования пространственного звука, включающий:
прием параметризированного звукового сигнала;
прием управляющей информации;
формирование пространственного звука с использованием зарегистрированных звуковых каналов посредством множества акустических систем, при этом управляющая информация используется для управления относительным усилением множества акустических систем для устранения неоднозначности в азимуте формируемого источника пространственного звука;
при этом принятая управляющая информация была определена путем обработки информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами, и информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов;
при этом в процессе обработки сравнивали характеристику информации о фазе и соответствующую характеристику информации выборки и характеристика зависела от знака изменения разности фаз и знака изменения пространственной выборки.

38. Устройство для формирования пространственного звука, содержащее:
средства для приема параметризированного звукового сигнала;
средства для приема управляющей информации;
средства для формирования пространственного звука с использованием зарегистрированных звуковых каналов посредством множества акустических систем, при этом управляющая информация используется для управления относительным усилением множества акустических систем для устранения неоднозначности в азимуте формируемого источника пространственного звука;
при этом принятая управляющая информация была определена путем обработки информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами, и информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов;
при этом в процессе обработки сравнивали характеристику информации о фазе и соответствующую характеристику информации выборки и характеристика зависела от знака изменения разности фаз и знака изменения пространственной выборки.

Документы, цитированные в отчёте о поиске

Параметрическое совместное кодирование аудиоисточников

Патенты аналоги

Параметрическое совместное кодирование аудиоисточников

Авторы

ОЯЛА Паси (FI)

ВИРОЛАЙНЕН Юсси (FI)

OJALA PASI

VIROLAINEN JUSSI

OJALA PASI

VIROLAINEN JUSSI

Патентообладатели

NOKIA CORP

NOKIA CORPORATION

Заявители