Способ и устройство обработки сигнала - RU2763785C2

Код документа: RU2763785C2

Чертежи

Показать все 13 чертежа(ей)

Описание

Область техники, к которой относится изобретение

Настоящее изобретение относится к способу и устройству обработки сигнала и программе и, более конкретно, к способу и устройству обработки сигнала и программе, предоставляющие возможность упрощения получения соответствующей информации распространения.

Уровень техники

В уровне техники, например, международный стандарт экспертов группы по вопросам движущегося изображения (MPEG)-H Часть 3: стандарт 3D аудио или тому подобное известен как схема кодирования, которая может обрабатывать аудиообъект (например, смотрите непатентный документ 1).

В такой схеме кодирования может быть выполнен процесс распространения, при котором может быть распространен звуковой образ звука аудиообъекта.

В частности, на стороне устройства кодирования информация местоположения объекта, указывающая позицию аудиообъекта, вместе с информацией распространения, указывающая степень распространения звукового образа звука аудиообъекта, содержатся в битовом потоке в качестве метаданных аудиообъекта.

Например, в случае, в котором звуковой образ звука аудиообъекта должен быть распространен симметрично в горизонтальном направлении и вертикальном направлении, информация распространения содержит одно значение, указывающее любой угол в диапазоне от 0 градусов до 180 градусов (в дальнейшем также упоминается как угол распространения), что указывает на степень распространения звукового образа в горизонтальном направлении и вертикальном направлении.

В противоположность этому, в случае, в котором звуковой образ звука аудиообъекта должен быть распространен асимметрично в горизонтальном направлении и вертикальном направлении, информация распространения содержит два значения, указывающие на угол распространения в горизонтальном направлении и угол распространения в вертикальном направлении. Следует отметить, что угол распространения в горизонтальном направлении и угол распространения в вертикальном направлении являются углами, величины которых находятся в пределах диапазона от 0 градусов до 180 градусов.

Такая информация распространения может принимать различные значения в каждом кадре аудиосигнала аудиообъекта.

Кроме того, на стороне устройства декодирования выполняют процесс визуализации, при котором распространяют звуковой образ аудиообъекта на основании информации распространения, извлеченной из битового потока или, другими словами, выполняют процесс распространения. При выполнении такого процесса распространения, например, область звукового образа объекта, находящегося ближе, может быть увеличена, в то время как область звукового образа объекта, расположенная дальше, может быть уменьшена. В результате, может быть достигнут эффект более реалистичного воспроизведения контента.

Список ссылочной литературы

Непатентный документ

Непатентный документ 1: международный стандарт ISO/IEC 23008-3 первое издание 2015-10-15. Информационные технологии высокоэффективного кодирования и средство доставки в гетерогенных средах, часть 3: 3D аудио

Раскрытие сущности изобретения

Технические задачи, решаемые с помощью изобретения

Однако процесс получения соответствующей информации распространения является сложным.

Например, ручной способ присвоения информации распространения каждому временному моменту (кадру) и каждому аудиообъекту является дорогостоящим. Кроме того, в зависимости от ситуации, в некоторых случаях информация распространения может быть даже не назначена.

Кроме того, при выполнении пользователем процесса масштабирования или тому подобного на стороне декодирования, например, изменение размера объекта на экране, область звукового образа не может быть распространена до соответствующего размера, если информацию распространения, полученную из битового потока, используют как есть. В этом случае, размер объекта на экране и размер области звукового образа аудиообъекта, соответствующего объекту, не будут совместимы друг с другом, и реалистическое восприятие будет нарушено.

Данная технология была разработана в свете таких обстоятельств, и дает возможность более легко получить соответствующую информацию распространения.

Решение технической задачи

Устройство обработки сигнала в соответствии с аспектом настоящего изобретения включает в себя: блок генерирования информации распространения, выполненный с возможностью генерирования информации распространения в кадре, подлежащего обработке аудиообъекта, на основании информации местоположения объекта в кадре, подлежащего обработке аудиообъекта, и любой из информации распространения в другом кадре, отличном от кадра, подлежащего обработке аудиообъекта, информации масштабирования и информации размера аудиообъекта.

Блок генерирования информации распространения может генерировать информацию распространения в кадре, подлежащего обработке, на основании информации распространения в другом кадре аудиообъекта и информации местоположения объекта в кадре, подлежащего обработке, а также в другом кадре аудиообъекта.

Информация местоположения объекта может быть расстоянием от опорной позиции до аудиообъекта.

Блок генерирования информации распространения может генерировать арктангенс произведения соотношения расстояния в кадре, подлежащего обработке, и расстояния в другом кадре, и тангенс информации распространения в другом кадре, в качестве информации распространения в кадре, подлежащего обработке.

Блок генерирования информации распространения может генерировать информацию распространения в кадре, подлежащий обработке аудиообъекта после масштабирования на основании информации масштабирования и информации распространения в кадре, подлежащий обработке аудиообъекта.

Блок генерирования информации распространения может генерировать информацию распространения в кадре, подлежащего обработке аудиообъекта после масштабирования на основании соотношения положения и размера между виртуальным экраном до масштабирования и виртуальный экраном после масштабирования, определенным информацией масштабирования.

Блок генерирования информации распространения может генерировать информацию распространения в кадре, подлежащий обработке, на основании информации размера и информации местоположения объекта в кадре, подлежащего обработке аудиообъекта.

Информацией размера может быть расстояние от центра до граничной области аудиообъекта.

Информацией местоположения объекта может быть расстояние от опорной позиции до аудиообъекта.

Блок генерирования информации распространения может генерировать арктангенс соотношения информации размера и информации местоположения объекта в кадре, подлежащего обработке, в качестве информации распространения в кадре, подлежащего обработке.

Способ обработки сигналов или программа, в соответствии с аспектом настоящего изобретения включает в себя: этап генерирования информации распространения в кадре подлежащего обработке аудиообъекта, на основании информации местоположения объекта в кадре подлежащего обработке аудиообъекта, и любой из информации распространения в другом кадре, отличном от кадра подлежащего обработке аудиообъекта, информации масштабирования и информации размера аудиообъекта.

В одном аспекте настоящего изобретения генерируют информацию распространения в кадре подлежащего обработке аудиообъекта, на основании информации местоположения объекта в кадре подлежащего обработке аудиообъекта, и любой из информации распространения в другом кадре, отличном от кадра подлежащего обработке аудиообъекта, информации масштабирования и информации размера аудиообъекта.

Эффекты изобретения

В соответствии с одним аспектом настоящего изобретения более легким способом может быть получена соответствующая информация распространения.

Следует отметить, что описанные в настоящем изобретении полезные эффекты не обязательно являются ограничивающими, и могут быть получены любые из описанных в настоящем описании предпочтительные эффекты.

Краткое описание чертежей

Фиг.1 показывает схему, поясняющую генерирование информации распространения.

Фиг.2 представляет собой схему, иллюстрирующую примерную конфигурацию

устройства кодирования.

Фиг. 3 показывает блок-схему алгоритма, поясняющую процесс кодирования.

Фиг.4 представляет собой схему, иллюстрирующую примерную конфигурацию устройства декодирования.

Фиг.5 представляет собой блок-схему алгоритма, поясняющую процесс декодирования.

Фиг. 6 показывает схему, поясняющую генерирование информации распространения.

Фиг. 7 показывает блок-схему алгоритма, поясняющую процесс кодирования.

Фиг. 8 представляет собой блок-схему алгоритма, поясняющую процесс декодирования.

Фиг. 9 показывает схему, поясняющую процесс масштабирования.

Фиг.10 показывает схему, поясняющую коррекцию информации местоположения объекта в соответствии с масштабированием.

Фиг.11 показывает схему, иллюстрирующую примерную конфигурацию устройства декодирования.

Фиг.12 представляет собой блок-схему алгоритма, поясняющую процесс декодирования.

Фиг.13 показывает схему, иллюстрирующую примерную конфигурацию компьютера.

Осуществление изобретения

Далее будут описаны варианты осуществления, к которым применяют настоящее изобретение, со ссылкой на чертежи.

Первый вариант осуществления

О настоящей технологии

Настоящая технология дает возможность получить соответствующую информацию распространения более легко путем генерирования информации распространения аудиообъекта на основании другой получаемой информации, отличной от информации распространения, например, информации местоположения объекта аудиообъекта, информации масштабирования, информации размера и информации распространения в разное время.

Далее приведено описание процесса кодирования многоканального аудиосигнала и аудиосигнала аудиообъекта в соответствии с заранее определенным стандартом или тому подобным. Обратите внимание, что в дальнейшем аудиообъект также называют просто как объект.

Например, аудиосигнал каждого канала и каждый объект кодируют и передают для каждого кадра.

Другими словами, кодированный аудиосигнал и информацию, необходимую для декодирования аудиосигнала и т.п., хранят в виде множества элементов (элементов битового потока), и битовый поток, содержащий эти элементы передают со стороны кодирования на сторону декодирования.

В частности, в битовом потоке для одного кадра, например, множество элементов, расположенные в порядке от самого начала, и идентификатор, указывающий положение терминала, относящегося к информации о кадре, расположен в конце.

Дополнительно, элемент, расположенный в самом начале, рассматриваются как вспомогательная область данных, называемая элементом потока данных (DSE). Информация, относящаяся к каждому из множества каналов, таких как информация, относящаяся к понижающему микшированию аудиосигнала и информации идентификации, как указано в DSE.

Кроме того, кодированный аудиосигнал хранят в каждом элементе следующего после DSE. В частности, элемент сохранения аудиосигнала одного канала, называют одноканальный элементом (SCE), в то время как элемент хранения аудиосигналов двух спаренных каналов, называют элементом взаимосвязанных каналов (CPE). Аудиосигнал каждого объекта хранят в SCE.

В данной технологии информация распространения аудиосигнала каждого объекта генерируют и хранят в DSE. Более конкретно, метаданные объекта, включающие в себя сгенерированную информацию распространения, хранят в DSE.

При этом, метаданные, по меньшей мере, содержит информацию распространения и информацию местоположения объекта.

Информация распространения является информацией угла, указывающей диапазон размера звукового образа объекта, то есть, угла распространения, указывающего степень распространения звукового образа аудиообъекта. Другими словами, информация распространение можно сказать является информацией, которая указывает размер области объекта.

Кроме того, информация местоположения объекта является информацией, указывающей на положение объекта в трехмерном пространстве и, например, используют информацию координат, включающую в себя горизонтальный угол направления, вертикального угла направления и радиус, указывающий положение объекта как видно из опорного положения (исходного).

Горизонтальный угол направления является углом в горизонтальном направлении (азимут), указывающее положение в горизонтальном направлении объекта, как видно из опорного положения, которое является положением, в котором находится пользователь. Другими слова, горизонтальный угол направления является углом, полученным между направлением, который служит в качестве опорного в горизонтальном направлении, и в направлении объекта, как видно из опорного положения.

В настоящем документе, когда горизонтальный угол направления составляет 0 градусов, объект расположен непосредственно перед пользователем, и когда горизонтальный угол направления равен 90 градусов или -90 градусов, объект расположен непосредственно рядом с пользователем. Кроме того, когда горизонтальный угол направления составляет 180 градусов или -180 градусов, объект расположен непосредственно за пользователем.

Точно так же, вертикальный угол направления является углом в вертикальном направлении (высота), указывающий положение в вертикальном направлении объекта, как видно из опорного положения или, другими словами, угол, полученный между направлением, который служит в качестве опорного в вертикальном направлении, и направлением объекта, как видно из опорного положения.

Кроме того, радиус является расстоянием от опорного положения до положения объекта в пространстве.

В то же время, назначение информации распространения вручную каждому кадру каждого объекта является дорогостоящим. Так, например, в контенте художественного фильма многие объекты обрабатывают в течение длительного периода времени и, следовательно, затраты на ручную обработку особенно высока.

Соответственно, устройство кодирования, к которому применяют настоящую технологию, выполнено с возможностью генерировать информации распространения кадра, подлежащего обработке для объекта, на основании информации распространения другого кадра, который по времени отличается от кадра, подлежащего обработке, и информации местоположения объекта, указывающей положение объекта в пространстве.

В частности, информацию распространения назначают вручную только для одного конкретного кадра (в дальнейшем также упоминается в качестве опорного кадра), например, первого кадра аудиосигнала объекта, например. Кроме того, для целей, отличных от опорного кадра, устройство кодирования генерирует информацию распространения на основании информации местоположения объекта и информации распространения опорного кадра.

Следует отметить, что один кадр аудиосигнала, образующий контент, может рассматриваться в качестве опорного кадра, или множество кадров может рассматриваться в качестве опорных кадров. В частности, в случае предоставления множества опорных кадров, кадры, расположенные на равных временных интервалах, могут рассматриваться в качестве опорных кадров, или любые кадры, расположенные на неравных временных интервалах, могут рассматриваться в качестве опорных кадров. Кроме того, кадр, который не был изначально опорным кадром, может также быть использован в качестве опорного кадра после генерирования информации распространения для этого кадра.

Кроме того, хотя в данном документе описан пример, в котором генерируют информацию распространения в блоках кадров, информация распространения также может быть сгенерирована в блоках заранее определенного временного интервала, например, в блоках множества кадров.

Далее, с целью упрощения объяснения, описание будет продолжено для случая обработки одного кадра в качестве опорного кадра.

В качестве примера, предположим, что звуковой образ аудиообъекта должен быть распределен симметрично в горизонтальном направлении и вертикальном направлении, и предположим, что s(i) является информацией распространения, то есть, угол распространения, индекса i кадра, указывающий кадр. Кроме того, ifrm является индексом i кадра, указывающий текущий кадр, подлежащий обработке, и допустим, что rfrm является индексом i кадра опорного кадра.

Кроме того, допустим, что r (i) является радиусом объекта, содержащийся в информации местоположения объекта в кадре, имеющий индекс i кадра объекта.

В таком случае, тот факт, что размер объекта не изменяется, как показано на фиг. 1 в качестве примера, генерируют информацию s (ifrm) распространения текущего кадра ifrm.

В примере, показанном на фиг. 1, позицию начала координат О рассматривают как местоположение головы пользователя, в качестве опорного положения, и объект, который находился в положении точки OB11 в опорном кадре rfrm, перемещают в местоположение точки OB21 в текущем кадре ifrm.

В это время, длина линии L11, соединяющей начало координат O, действующей в качестве опорной, и точки OB11 или, другими словами, расстояние от начала координат О до точки OB11, становится радиусом r (rfrm), содержащийся в информация местоположения объекта в опорном кадре rfrm. Аналогичным образом, длина линии L21, соединяющей начало координат О и точку OB21 или, другими словами, расстояние от начала координат О до точки OB21, становится радиусом r (ifrm), содержащийся в информации местоположении объекта в текущем кадре ifrm.

Кроме того, угол распространения указывают информацией распространения в опорном кадре rfrm, то есть, информация s (rfrm) распространения известна. Допустим, L12 является линией, проходящей через начало координат O в результате чего угол, полученный между линиями L11 и L12, является s (rfrm).

Поскольку информация s (rfrm) распространения является информацией угла, указывающей диапазон размера звукового образа объекта, то есть, диапазон области объекта, концевой участок (участок границы) области объекта, расположенный на линии L12.

Другими словами, при условии, что L13 является линией, проходящей через точку OB11, а также перпендикулярна линии L11 и точка OBE11 является точкой пересечения линий L12 и линий L13, положение этой точки OBE11 становится положением концевого участка (участка границы) области объекта. Следовательно, длина (расстояние) от точки OB11 до точки OBE11 является длиной от центра к границе объекта в опорном кадре rfrm.

Такую длину от точки OB11 до точки OBE11, то есть, длину линии L13, можно выразить в виде r (rfrm) × tan (s (rfrm)) с использованием информации s (rfrm) распространения и радиуса r (rfrm).

Кроме того, с учетом информации s (ifrm) в текущем кадре ifrm, подлежащий вычислению, полагают, что L22 является линией, проходящей через начало координат O в результате чего, угол, полученный между линиями L21 и L22 является s (ifrm). Кроме того, при условии, что L23 является линией, проходящей через точку OB21 и также перпендикулярно линии L21 и точка OBE21 является точкой пересечения линии L22 и линии L23, положение точки OBE21 становится положение концевого участка (участок границы) области объекта в текущем кадре ifrm.

Следовательно, длина от точки OB21 до точки OBE21, то есть, длина линии L23, становится длиной от центра к границе объекта в текущем кадре ifrm, и может быть выражена как r (ifrm) × tan (s (ifrm)) с использованием информации s (ifrm) распространения и радиуса r (ifrm).

В настоящем документе предполагают, что размер объекта, то есть, размер области звукового образа объекта, является постоянным (неизменным), независимо от кадра, длина от точки OB11 до точки OBE11 и длина от точки OB21 до точки OBE21 становятся равными. Другими словами, имеет место г (rfrm) × tan (s (rfrm)) = г (ifrm) × tan (s (ifrm)).

Следовательно, из этого соотношения, соответствующая информации s (rfrm) распространения в текущем кадре rfrm может быть получена в соответствии со следующей формулой (1).

Формула 1

В формуле (1) вычисляют произведение tan (s (rfrm)) × г (rfrm)/г (ifrm) отношения г (rfrm)/r (ifrm) радиуса г (ifrm) в текущем кадре ifrm и радиуса г (rfrm) в опорном кадре rfrm объекта и тангенса информации s (rfrm) распространения в опорном кадре rfrm объекта. Кроме того, генерируют обратный тангенс этого произведения tan (s (rfrm)) × г (rfrm)/г (ifrm) как информацию s (ifrm) распространения в текущем кадре ifrm объекта.

Если формулу (1) вычисляют на основании радиуса г (ifrm) в текущем кадре ifrm и информации s (rfrm) распространения, а также радиуса г (rfrm) в опорном кадре rfrm, то соответствующая информация s (ifrm) распространения в текущем кадре ifrm может быть получена с помощью простых математических операций.

В частности, в этом примере, так как требуется только ручное назначение информации распространения только для нескольких кадров аудиосигнала объекта, стоимость ручного назначения информации распространения может быть значительно снижена.

Следует отметить, что, хотя выше описан случай, в котором звуковой образ аудиообъекта должен быть распределен симметрично в горизонтальном направлении и вертикальном направлении, информация распространения может быть получена с помощью аналогичных вычислений даже в том случае, когда звуковой образ аудиообъекта должен быть распространен асимметрично в горизонтальном направлении и вертикальном направлении.

Например, допустим, что swidth (i) является информацией распространения в горизонтальном направлении, то есть, углом распространения в горизонтальном направлении в кадре, имеющий индекс i кадра, и допустим, что sheight (i) является информацией распространения в вертикальном направлении, то есть, углом распространения в вертикальном направлении в кадре, имеющий индекс i кадра.

В этом случае достаточно выполнить вычисления по формуле (1), описанной выше, для каждого из горизонтального направления и вертикального направления.

Другими словами, путем оценки следующей формулой (2), может быть получена информация swidth(ifrm) распространения в горизонтальном направлении в текущем кадре ifrm, и путем оценки по следующей формуле (3), может быть получена информация sheight (ifrm) распространения в вертикальном направлении в текущем кадре ifrm.

Формула 2

Формула 3

Как указано выше, если используют информацию местоположения объекта в текущем кадре и информацию местоположения объекта, а также информацию распространения опорного кадра, может быть более легко получена соответствующая информация распространения в текущем кадре.

Примерная конфигурация устройства кодирования

Далее будет описан конкретный вариант осуществления устройства кодирования, к которому применяют настоящую технологию.

Фиг.2 представляет собой схему, иллюстрирующую примерную конфигурацию устройства кодирования, к которому применяют настоящую технологию.

Устройство 11 кодирования, показанное на фиг.2, включает в себя блок 21 кодирования аудио канала, блок 22 кодирования аудиообъекта, блок 23 ввода метаданных, блок 24 генерирования информации распространения и блок 25 упаковки.

В блок 21 кодирования аудио канала подают аудиосигнал каждого канала многоканального аудио, содержащего M каналов. Например, аудиосигнал каждого канала поступает от микрофона, соответствующего каждому из этих каналов. На фиг. 2, символы из «# 0» до «# М-1» обозначают номер канала для каждого канала.

Блок 21 кодирования аудио канала кодирует поставленный аудиосигнал каждого канала, и поставляет кодированные данные, полученные с помощью кодирования в блок 25 упаковки.

В блок 22 кодирования аудиообъекта подают аудиосигнал каждого из N объектов. Например, аудиосигнал каждого объекта поступает из микрофона, подключенного к каждому из этих объектов. На фиг. 2, символы из «# 0» до «# N-1» обозначает номер объекта каждого объекта.

Блок 22 кодирования аудиообъекта кодирует поставленный аудиосигнал каждого объекта и поставляет полученные кодированные данные в блок 25 упаковки.

Блок 23 ввода метаданных поставляет метаданные каждого объекта в блок 24 генерирования информации распространения.

Например, метаданные в опорном кадре объекта содержат информацию местоположения объекта и информацию распространения. В противоположность этому, метаданные кадра, который не является опорным кадром объекта, содержат информацию местоположения объекта, но не содержит информацию распространения.

Блок 24 генерирования информации распространения генерирует информацию распространения в кадре, который не является опорным кадром, на основании метаданных, подаваемых из блока 23 ввода метаданных, и сохраняет сгенерированную информацию распространения в метаданных. При такой компоновке, в блоке 24 генерирования информации распространения получают метаданные, содержащиеся информации местоположения объекта и информацию распространения для всех кадров.

Блок 24 генерирования информации распространения поставляет метаданные каждого объекта, содержащие информацию местоположения объекта информацию распространения, в блок 25 упаковки.

Блок 25 упаковки упаковывает кодированные данные, подаваемые из блока 21 кодирования аудио канала, кодированные данные, подаваемые из блока 22 кодирования аудиообъекта, и метаданные, поставленные из блока 24 генерирования информации распространения, для генерирования и выходного битового потока.

Полученный таким образом битовый поток, содержит кодированные данные каждого канала, кодированные данные каждого объекта и метаданные каждого объекта для каждого кадра.

При этом, аудиосигналы каждого из М каналов и аудиосигналы каждого из N объектов, хранящиеся в битовом потоке для одного кадра, являются аудиосигналами одного и того же кадра, который должен быть воспроизведен одновременно.

Описание процесса кодирования

Далее будет приведено описание процесса, выполняемого устройством 11 кодирования.

Когда в устройство 11 кодирования подают аудиосигналы каждого из множества каналов и аудиосигналы каждых из множества объектов одного кадра одновременно, устройство 11 кодирования выполняет процесс кодирования и выводит битовый поток, содержащий кодированные аудиосигналы.

Далее будет приведено описание процесса кодирования устройством 11 кодирования со ссылкой на блок-схему на фиг. 3.

На этапе S11, блок 24 генерирования информации распространения определяет, является ли кадр, подлежащей обработке, опорным кадром.

Так, например, путем приема операции ввода пользователя, посредством связи с внешним источником или чтения из внешней области записи, блок 23 ввода метаданных получает метаданные каждого объекта в кадре, подлежащего обработке, и поставляет полученные метаданные в блок 24 генерирования информации распространения.

В случае, в котором информация распространения содержится в метаданных в кадре, подлежащий обработке каждого объекта, поступающего из блока 23 ввода метаданных, блок 24 генерирования информации распространения определяет, является ли кадр, подлежащий обработке, опорным кадром.

Следует отметить, что, в целях упрощения пояснения в данном описании, кадры, обработанные в качестве опорных кадров, описывают как те же для всех объектов, но, в тех случаях, когда кадры, обработанные в качестве опорных кадров, являются разными для каждого объекта, достаточно для выполнения процессов этапа S11 и этапа S12 для каждого объекта.

На этапе S11, в случае определения того, что кадр, подлежащий обработке, является опорным кадром, блок 24 генерирования информации распространения поставляет метаданные в кадре, подлежащий обработке каждого объекта, поступающие из блока 23 ввода метаданных, в блок 25 упаковки как есть, и процесс переходит к этапу S13.

В противоположность этому, в случае определения на этапе S11, что кадр, подлежащий обработке, не является опорным кадром, процесс переходит к этапу S12.

На этапе S12, блок 24 генерирования информации распространения генерирует информацию распространения в кадре, подлежащий обработке для каждого объекта, на основании метаданных, подаваемых из блока 23 ввода метаданных.

Например, блок 24 генерирования информации распространения генерирует информацию распространения в кадре, подлежащий обработке, путем оценки формулы (1), описанной выше, или формулы (2) и (3), описанные выше, на основании информации местоположения объекта, содержащейся в метаданных кадра, подлежащего обработке, и информация местоположения объекта и информации распространения, содержащейся в метаданных опорного кадра, поступающего из блока 23 ввода метаданных ранее.

При генерировании информации распространения для каждого объекта, блок 24 генерирования информации распространения сохраняет сгенерированную информацию распространения в метаданных каждого из этих объектов, и поставляет метаданные, содержащие информацию местоположения объекта и информацию распространения в блок 25 упаковки.

После получения метаданных, содержащие информацию местоположения объекта и информацию распространения для каждого объекта, процесс переходит к этапу S13.

Когда кадр, подлежащий обработке, определяют, как опорный кадр на этапе S11, или, когда информацию распространения генерируют на этапе S12, выполняют процесс на этапе S13.

Другими словами, на этапе S13, блок 25 упаковки хранит метаданные каждого объекта, поступающего из блока 24 генерирования информации распространения, в DSE битового потока.

На этапе S14, блок 21 кодирования аудио канала кодирует поступающий аудиосигнал для каждого канала и подает кодированные данные каждого канала, полученные в результате, в блок 25 упаковки.

На этапе S15, блок 25 упаковки сохраняет кодированные данные аудиосигнала для каждого канала, подаваемого из блока 21 кодирования аудио канала, в SCE или СРЕ битового потока. Другими словами, кодированные данные хранят в каждом элементе, расположенным после DSE в битовом потоке.

На этапе S16, блок 22 кодирования аудиообъекта кодирует поставленный аудиосигнал каждого объекта и подает кодированные данные для каждого объекта, полученные в результате, в блок 25 упаковки.

На этапе S17, блок 25 упаковки хранит кодируемые данные аудиосигнала для каждого объекта, поступающего от блока 22 кодирования аудиообъекта, в SCE битового потока. Другими словами, кодированные данные сохраняют в некоторых элементах, расположенных после DSE в битовом потоке.

В соответствии с вышеуказанным способом, для обрабатываемого кадра, получают битовый поток, хранящий кодированные данные аудиосигналов всех каналов и метаданных, а также кодированные данные аудиосигналов всех объектов.

На этапе S18, блок 25 упаковки выводит битовый поток, полученный для одного кадра.

На этапе S19, устройство 11 кодирования определяет, завершен ли или нет процесс. Например, в случае, в котором кодирование закончилось для всех кадров, определяют завершить процесс на этапе S19.

В случае определения, что процесс на этапе S19 не завершен, процесс возвращают на этап S11, следующий кадр рассматривается как кадр, подлежащий обработке, и повторяют описанный выше процесс.

В противоположность этому, в случае определения завершения процесса на этапе S19, завершают выполнение обработки каждым блоком устройства 11 кодирования, и процесс кодирования заканчивается.

Как указано выше, устройство 11 кодирования генерирует информацию распространения кадра, который не является опорным кадром каждого объекта, и выводит информацию распространения, хранящуюся в битовом потоке. При такой компоновке, стоимость ручной операции присваивания информации распространения может быть уменьшена, и соответствующая информация распространения может быть получена более легко.

Модификация 1 первого варианта осуществления

Примерная конфигурация устройства декодирования

Следует отметить, что, хотя выше описан пример генерирования информации распространения в устройстве 11 кодирования, информацию распространения также могут генерировать в устройстве декодирования. В таком случае, на фиг.4 показана примерная конфигурация устройства декодирования, которое принимает входной сигнал выходного битового потока из устройства кодирования и декодирует кодированные данные, содержащиеся в битовом потоке.

Устройство 101 декодирования проиллюстрировано на фиг. 4 и включает в себя блок 111 распаковки/декодирования, блок 112 генерирования информации распространения, блок 113 визуализации и блок 114 смешивания.

Блок 111 распаковки/декодирования получает выходной сигнал битового потока из устройства кодирования и, кроме того, распаковывает и декодирует битовый поток.

Блок 111 распаковки/декодирования подает аудиосигнал каждого объекта, полученный путем распаковки и декодирования, в блок 113 визуализации, и дополнительно, предоставляет метаданные каждого объекта, полученные путем распаковки и декодированием, в блок 112 генерирования информации распространения. Следует отметить, что относительно данного аспекта предполагают, что информация распространения содержится только в метаданных опорных кадров, в то время, как информация распространения не содержится в метаданных кадров, которые не являются опорными кадрами.

Кроме того, блок 111 распаковки/декодирования подает аудиосигнал каждого канала, полученный путем распаковки и декодирования, в блок 114 смешивания.

Блок 112 генерирования информации распространения генерирует информацию распространения в кадре, который не является опорным кадром, на основании метаданных каждого объекта, подаваемые из блока 111 распаковки/декодирования, и сохраняет сгенерированную информацию распространения в метаданных. При такой компоновке, в блоке 112 генерирования информации распространения получают метаданные, содержащие информацию местоположения объекта и информацию распространения для всех кадров.

Блок 112 генерирования информации распространения поставляет метаданные каждого объекта, содержащие информацию местоположения объекта и информацию распространения, в блок 113 визуализации.

Блок 113 визуализации генерирует аудиосигналы М каналов на основании аудиосигнала каждого объекта, подаваемого из блока 111 распаковки/декодирования, и метаданных каждого объекта, подаваемые из блока 112 генерирования информации распространения, и подает сгенерированные аудиосигналы в блок 114 смешивания. В это время блок 113 визуализации генерирует аудиосигнал каждого из каналов М, так что звуковой образ каждого объекта локализован в положении, указанном информацией местоположения объекта каждого объекта и, таким образом, что звуковой образ распространяется в направлении, указанном информацией распространения каждого объекта.

Блок 114 смешивания выполняет взвешенное добавление аудиосигнала каждого канала, подаваемого из блока 111 распаковки/декодирования, и аудиосигнала каждого канала, подаваемый из блока 113 визуализации для каждого канала, и генерирует окончательный аудиосигнал каждого канала. Блок 114 смешения подает окончательный аудиосигнал каждого канала, полученный таким образом, на внешние громкоговорители, соответственно, соответствующие каждому каналу, и вызывает звук, который должен быть воспроизведен.

Описание процесса декодирования

Далее будут описаны операции устройства 101 декодирования.

Когда битовый поток подают из устройства кодирования, устройство 101 декодирования выполняет процесс декодирования для генерирования и вывода аудиосигналов на громкоговорители. Далее, со ссылкой на блок-схему на фиг. 5, будет приведено описание процесса декодирования, выполняемого устройством 101 декодирования.

На этапе S51, блок 111 распаковки/декодирования получает битовый поток для одного кадра, переданный из устройства кодирования. Другими словами, принимают битовый поток кадра, подлежащий обработке.

На этапе S52, блок 111 распаковки/декодирования выполняет процесс декодирования кадра.

Другими словами, блок 111 распаковки/декодирования распаковывает битовый поток кадра, подлежащий обработке, полученный на этапе S51, и получает кодированные данные каждого канала, кодированные данные каждого объекта и метаданные каждого объекта.

Затем блок 111 распаковки/декодирования декодирует кодированные данные каждого канала, и подает аудиосигнал каждого канала, полученный в результате, в блок 114 смешивания. Кроме того, блок 111 распаковки/декодирования декодирует кодированные данные каждого объекта, и подает аудиосигнал каждого объекта, полученный в результате, в блок 113 визуализации.

Кроме того, блок 111 распаковки/декодирования поставляет полученные метаданные каждого объекта в блок 112 генерирования информации распространения.

На этапе S53, блок 112 генерирования информации распространения определяет, является ли или нет кадр, подлежащий обработке, опорным кадром.

Например, в случае, в котором информация распространяется содержится в метаданных в кадре, подлежащем обработке каждого объекта, подаваемом из блока 111 распаковки/декодирования, блок 112 генерирования информации распространения определяет, что кадр, подлежащий обработке, является опорным кадром.

На этапе S53, в случае определения того, что кадр, подлежащий обработке, является опорным кадром, блок 112 генерирования информации распространения поставляет метаданные в кадре, подлежащий обработке, каждого объекта, подаваемый из блока 111 распаковки/декодирования, в блок 113 визуализации как есть, и процесс переходит к этапу S55.

В противоположность этому, в случае определения на этапе S53, что кадр, подлежащий обработке, не является опорным кадром, процесс переходит к этапу S54.

На этапе S54, блок 112 генерирования информации распространения генерирует информацию распространения в кадре, подлежащий обработке, для каждого объекта на основании метаданных, подаваемых из блока 111 распаковки/декодирования.

Например, блок 112 генерирования информации распространения генерирует информацию распространения в кадре, подлежащий обработке, путем оценки формулы (1), описанной выше, или формулы (2) и (3), описанные выше, на основании информации местоположения объекта, содержащейся в метаданных кадра, подлежащего обработке (текущий кадр), и информации местоположения объекта и информации распространения, содержащейся в метаданных опорного кадра, подаваемой ранее.

При генерировании информации распространения для каждого объекта, блок 112 генерирования информации распространения сохраняет генерируемую информацию распространения в метаданных каждого из этих объектов, и поставляет метаданные, содержащих информацию местоположения объекта, а также информацию распределения в блок 113 визуализации.

После того, как метаданные, содержащие информацию местоположения объекта, а также информацию распространения, получают для каждого объекта, процесс переходит к этапу S55.

Когда кадр, подлежащий обработке, определяют, как опорный кадр на этапе S53, или, когда информацию распространения генерируют на этапе S54, выполняют процесс на этапе S55.

На этапе S55, блок 113 визуализации визуализирует аудиосигналы объектов на основании аудиосигналов объектов, поступающих из блока 111 распаковки/декодирования, и метаданных, подаваемых из блока 112 генерирования информации распространения.

Например, для каждого объекта, блок 113 визуализации генерирует аудиосигнал каждого канала в соответствии с векторным амплитудным панорамированием (VBAP) на основании информации распространения и информации местоположения объекта и поставляет сгенерированные аудиосигналы в блок 114 смешивания. На этапе S55 генерируют аудиосигналы таким образом, что звуковые образы объектов локализованы в положениях, указанных информацией местоположения объекта, и таким образом, что звуковые образы распространяют в степени, указанной информацией распространения.

На этапе S56, блок 114 смешивания выполняет взвешенное добавление аудиосигнала для каждого канала, подаваемого из блока 111 распаковки/декодирования и аудиосигнала каждого канала, подаваемый из блока 113 визуализации для каждого канала, и подает полученные аудиосигналы на внешние громкоговорители. При такой компоновке, поскольку на каждый громкоговоритель подают аудиосигнал канала, соответствующий громкоговорителю, каждый громкоговоритель воспроизводит звук на основании поставляемого аудиосигнала.

На этапе S57, устройство 101 декодирования определяет, завершить ли или нет процесс. Например, в случае, в котором завершают выход аудиосигнала на громкоговоритель для всех кадров, определяют завершить процесс на этапе S57.

В случае определения не завершать процесс на этапе S57, процесс возвращается к этапу S51, следующий кадр рассматривается как кадр, подлежащий обработке, и повторяют описанный выше процесс.

В противоположность этому, в случае определения завершить процесс на этапе S57, завершают выполнение обработки каждым блоком устройства 101 декодирования, и процесс декодирования завершается.

Как и выше, устройство 101 декодирования выполняет визуализацию путем генерации информации распространения кадра, который не является опорным кадром каждого объекта.

При такой компоновке, стоимость ручного способа назначения информации распространения может быть снижена, и соответствующая информация распространения может быть получена более легко. Кроме того, при генерировании информации распространения отличных от опорных кадров на стороне устройства 101 декодирования, нет необходимости хранить информацию распространения отличных от опорных кадров в битовом потоке кадров. Следовательно, скорость передачи битов в битовом потоке для передачи в устройство 101 декодирования может быть снижена.

Второй вариант осуществления

О генерировании информации распространения

При этом, первый вариант осуществления описывает случай, в котором информацию распространения назначают вручную на подмножество кадров аудиосигналов объектов.

Тем не менее, все еще значительный объем контента используют без какой-либо назначенной информации распространения.

Например, некоторые схемы кодирования, которые могут обрабатывать аудиообъект используют таким образом, что флаг заголовка может быть использован для переключения метаданных с или без информации распространения. Другими словами, допускаю наличие битового потока без присвоенной информации распространения.

Дополнительно, используют также схемы кодирования аудиообъекта, в которых информация распространения отсутствует в начале битового потока.

Учитывая такую компоновку, используют значительный объем контента, в котором не назначена информации распространения надлежащим образом в любом интервале времени (кадрах) и, как следствие, не может быть достигнуть высокого уровня достоверного воспроизведения данного контента.

Соответственно, путем генерирования информации распространения на основании информации местоположения объекта и информации размера, указывающей размер объекта, может быть сконфигурировано таким образом, что соответствующая информация распространения может быть получена без ручного назначения информации распространения.

Например, в нескольких схемах кодирования аудиообъекта информация размера каждого объекта содержится в битовом потоке. В случае наличия информации размера объекта, информация распространения может быть получена с использованием информации местоположения объекта и информации размера без ручного присвоения информации распространения.

В частности, например, предположим, что звуковой образ аудиообъекта должен быть распределен симметрично в горизонтальном направлении и вертикальном направлении, и предположим, что информацию, указывающую расстояние от центра к граничной области (концевой участок) объекта, обрабатывают как информацию размера объекта. В дальнейшем, предполагают, что d (i) является информацией размера в кадре, имеющий индекс i кадра.

В этом случае, при условии, что точка ОВ21 является центральным положением объекта в текущем кадре ifrm, и точка OBE21 является положением концевого участка (граничного участка) объекта, как показано на фиг. 6, например, расстояние от точки OB21 до точки OBE21 становится информацией размера d (ifrm), то есть, расстоянием, обозначенным информацией размера. Следует отметить, что на фиг. 6, участки, соответствующие случаю, на фиг.1, обозначены теми же ссылочными позициями, и их описание опущено.

В этом примере позиция точки ОВ21 определяют в соответствии с радиусом г (ifrm), содержащийся в информации местоположения объекта. Кроме того, положение точки OBE21 определяют из положения точки OB21 и информации размера d (ifrm). В данном случае, точка OBE21 расположена на линии, перпендикулярной к линии L21, соединяющей начало координат О и точку OB21. Другими словами, линия L23, соединяющая точку OB21 и точку OBE21 является линией, перпендикулярной линии L21.

В случае, в котором информация местоположения объекта и информация размера объекта приведены таким образом, длина линии L21 выражается как г (ifrm) и длина линии L23 выражается как d (ifrm) известна.

При условии, что линия L22 является линией, соединяющей начало координат О и точку OBE21, информация s (ifrm) распространения в текущем кадре ifm, то есть, угол распространения, представляет собой угол, полученный между линией L22 и линией L21. Следовательно, радиус г (ifrm) и информация размера d (ifrm) могут быть использованы для вычисления информации s (ifrm) распространения в соответствии со следующей формулой (4).

Формула 4

В формуле (4), вычисляют отношение d (ifrm)/г (ifrm) информации размера d (ifrm) в текущем кадре ifrm объекта и радиуса r (ifrm) в текущем кадре ifrm объекта и генерируют обратный тангенс отношения d (ifrm)/г (ifrm) в виде информации s (ifrm) распространения в текущем кадре ifrm объекта.

Если формула (4) вычисляется на основании радиуса г (ifrm) и информации размера d (ifrm) в текущем кадре ifrm объекта таким образом, может быть сгенерирована надлежащая информация s (ifrm) распространения в текущем кадре ifrm объекта с помощью простых математических операций.

В частности, в этом примере, в связи с отсутствием необходимости назначать вручную информацию распространения, стоимость присвоения информации распространения может быть значительно снижена. Другими словами, соответствующая информация распространения может быть легко сгенерирована в отношении всех кадров, даже в случаях отсутствия кадра с присвоенной информацией распространения. При такой компоновке, информация распространения может быть использована для достижения воспроизведения контента с высоким уровнем реалистичности.

Кроме того, для случая, в котором звуковой образ аудиообъекта должен быть распространен асимметрично в горизонтальном направлении и вертикальном направлении, информация распространения, также может быть получена с помощью расчетов, аналогично формулы (4).

Другими слова, например, допустим «расстояние в горизонтальном направлении» является расстоянием от центра к граничной области в горизонтальном направлении, то есть, конечный участок в горизонтальном направлении объекта, и допустим «расстояние в вертикальном направлении» является расстоянием от центра к граничной области в вертикальном направлении, то есть, конечный участок в вертикальном направлении объекта.

Кроме того, предположим, что для объекта в текущем кадре ifrm направление расстояние dwidth(ifrm) в горизонтальном направлении и расстояние dheight(ifrm) в вертикальном направлении содержаться в информации размера.

В этом случае, аналогично формуле (4), описанной выше, путем оценки по следующей формуле (5), может быть получена информация swidth(ifrm) распространения в горизонтальном направлении в текущем кадре ifrm, и путем оценки по следующей формуле (6), может быть получена информация sheight (ifrm) распространения в вертикальном направлении в текущем кадре (ifrm).

Формула 5

Формула 6

В формуле (5), информацию swidth(ifrm) распространения в горизонтальном направлении вычисляют на основании радиуса г (ifrm) и расстоянию dwidth(ifrm) в горизонтальном направлении в качестве информации размера в текущем кадре ifrm. Аналогичным образом, в формуле (6), информацию sheight (ifrm) распространения в вертикальном направлении вычисляют на основании радиуса г (ifrm) и расстояния dheight(ifrm) в вертикальном направлении в качестве информации размера в текущем кадре ifrm.

Описание процесса кодирования

В случае, в котором информацию распространения генерируют на основании информации местоположения объекта и информации размера, как указано выше, в устройстве 11 кодирования, показанного на фиг. 2, метаданные и информация размера поступают из блока 23 ввода метаданных в блок 24 генерирования информации распространения. В это время, метаданные находится в состоянии, содержащей информацию местоположения объекта, но не содержащие информацию распространения.

Блок 24 генерирования информации распространения генерирует информацию распространения на основании информации местоположения объекта и информации размера, подаваемой из блока 23 ввода метаданных.

В случае, в котором информацию распространения генерируют таким образом, выполняют процесс кодирования, показанный на фиг. 7, в устройстве 11 кодирования. В дальнейшем, описание процесса кодирования посредством устройства 11 кодирования будет приведено со ссылкой на блок-схему алгоритма на фиг. 7.

На этапе S81, блок 24 генерирования информации распространения генерирует информацию распространения.

Другими словами, приемом операции ввода пользователя, посредством взаимодействия с внешним источником или чтения из внешней области записи, блок 23 ввода метаданных получает метаданные и информацию размера каждого объекта в кадре, подлежащего обработке, и поставляет полученные метаданные и информацию размера в блок 24 генерирования информации распространения.

После этого, блок 24 генерирования информации распространения генерирует информацию распространения для каждого объекта на основании метаданных и информации размера, подаваемой из блока 23 ввода метаданных.

В частности, блок 24 генерирования информации распространения генерирует информацию распространения в кадре, подлежащий обработке, путем оценки формулы (4), описанной выше, или формулы (5) и (6), описанных выше, на основании информации местоположения объекта, содержащейся в метаданных кадра, подлежащий обработке, и информации размера кадра, подлежащий обработке.

Затем, блок 24 генерирования информации распространения хранит генерируемую информацию распространения в метаданных каждого из этих объектов, и поставляет метаданные, содержащие информацию местоположения объекта и информацию распределения, а также информацию размера в блок 25 упаковки.

После генерирования информации распространения, выполняют процессы с этапа S82 по этап S88, и процесс кодирования заканчивается, но так как эти процессы аналогичны процессам с этапа S13 по этап S19 на фиг. 3, их описание опущено. Тем не менее, на этапе S82 информация размера объектов также хранят вместе с метаданными в DSE битового потока.

Как указано выше, устройство 11 кодирования генерирует информацию распространения на основании информации местоположения объекта и информации размера, и выводит хранящуюся информацию распространения в битовом потоке. При такой компоновке, стоимость присвоения информации распространения может быть уменьшена, и соответствующая информация распространения может быть получена более легко.

Модификация 1 второго варианта осуществления

Описание процесса декодирования

Кроме того, в случае, в котором генерируют информацию распространения на основании информации местоположения объекта и информации размера, можно также генерировать информацию распространения в устройстве 101 декодирования, показанного на фиг. 4.

В случае, в котором генерируют информацию распространения в устройстве 101 декодирования, выполняют процесс декодирования, показанный на фиг. 8, в устройстве 101 декодирования. В дальнейшем, будет приведено описание процесса декодированию устройством 101 декодирования со ссылкой на блок-схему на фиг. 8.

Следует отметить, что поскольку процессы на этапе S111 и этапе S112 аналогичны процессам этапе S51 и этапе S52 на фиг. 5, описание будет опущено.

Тем не менее, на этапе S112, метаданные и информация размера каждого объекта получают посредством распаковки битового потока в блоке 111 распаковки/декодирования, а также метаданные и информацию размера подают в блок 112 генерирования информации распространения. В этом случае, метаданные, полученные посредством распаковки, содержит информацию местоположения объекта, но не содержат информацию распространения.

На этапе S113, блок 112 генерирования информации распространения генерирует информацию распространения в кадре, подлежащий обработке, для каждого объекта на основании метаданных и информации размера, подаваемой из блока 111 распаковки/декодирования.

Например, блок 112 генерирования информации распространения генерирует информацию распространения в кадре, подлежащий обработке, путем оценки формулы (4), описанная выше, или формулы (5) и (6), описанных выше, на основании информации местоположения объекта, содержащейся в метаданных кадра, подлежащего обработке, и информация размера кадра, подлежащий обработке.

При генерировании информации распространения каждого объекта, блок 112 генерирования информации распространения хранит сгенерированную информацию распространения в метаданных каждого из этих объектов, и поставляет метаданные, содержащих информацию местоположения объекта, а также информацию распределения в блок 113 визуализацию.

После выполнения процесса на этапе S113, выполняют процессы с этапа S114 по этап S116, и процесс декодирования завершается, но так как эти процессы аналогичны процессам от этапа S55 до этапа S57 на фиг. 5, описание опущено.

Как указано выше, устройство 101 декодирования генерирует информацию распространения на основании информации местоположения объекта и информации размера каждого объекта, и выполняет визуализацию.

При такой компоновке, стоимость присвоения информации распространения может быть снижена, и соответствующая информация распространения может быть получена более легко. Кроме того, поскольку нет необходимости хранить информацию распространения в битовом потоке, скорость передачи битов в битовом потоке для передачи в устройство 101 декодирования может быть снижена.

Третий вариант осуществления

О генерировании информации распространения

Между тем, в некоторых схемах кодирования, которые могут обрабатывать аудиообъекта посредством корректировки информации местоположении объекта на основании информации масштабирования, указанной пользователем, получают перемещение объекта, соответствующее масштабированию.

С другой стороны, относительно звукового образа (распространение) объектов, не выполняют процесс, такой как корректировка информации распространения в соответствии с информацией масштабирования. По этой причине, даже в тех случаях, когда объект приближается к пользователю из-за масштабирования, например, звуковой образ объекта не распространен, и в результате, реалистическое восприятие воспроизведения не будет обеспечено.

Соответственно, таким образом, посредством соответствующей корректировки информации распространения в кадре, подлежащего обработке, на основании информации масштабирования, может быть достигнуто более реалистичное воспроизведение контента.

Например, предположим, что на стороне декодирования корректируют информацию местоположении объекта на основании информации масштабирования, указанной пользователем, и получают эффект движения объекта, соответствующего масштабированию.

В частности, как показано стрелкой А11 на фиг. 9, например, предположим, что объект OB61 отображается на виртуальном SC11 экране, расположенный впереди пользователя U11 в состоянии до масштабирования, имеющий SCE11 точку и точку SCE12 в качестве конечных точек в горизонтальном направлении.

В данном случае, предположим, что объект OB61 является объектом, соответствующий аудиообъект, и угол в вертикальном направлении (высота), указывающий положение в вертикальном направлении объекта OB61, как видно с позиции пользователя U11 составляет 0 градусов. Другими словами, предположим, что угол в вертикальном направлении, указанный информацией местоположения данного объекта OB61 составляет 0 градусов.

Кроме того, предположим, что U11 пользователь находится в позиции начала координат О, который действует в качестве опорной, и пусть точка SCO11 является точкой пересечения между линией L61, проходящей через начало координат O перпендикулярно к поверхности экрана SC11 и SC11 экраном.

В данном случае, точка SCO11 является центральной позицией экрана SC11, и положение точки SCO11, как видно с позиции пользователя U11, является положением, в котором угол в горизонтальном направлении и угол в вертикальном направлении равен 0 градусов.

В этом состоянии, объект OB61, как видно с позиции пользователя U11, позиционируется в направлении по диагонали спереди справа. В это время, при условии, что линия L62 является линией, соединяющей начало координат О и объект OB61 и φ является углом, полученным между линией L61 и линией L62, положение объекта OB61 со стороны пользователя U11 является положением где горизонтальный угол φ направления и вертикальный угол направления составляют 0 градусов.

Предположим, что в таком состоянии, показанном стрелкой А11, U11 пользователь или тому подобное выполняет операцию масштабирования, а также предоставляет информацию масштабирования.

Здесь, информация масштабирования является информацией из которой задают положение и размер после масштабирования виртуального SC21 экрана по отношению к экрану SC11 до масштабирования, такая информация, указывающая положение центра и степень увеличения масштабирования пост-масштабированного виртуального экрана SC21, например. Другими словами, информацию масштабирования рассматривают, как информацию из которой задают взаимосвязь между положением и размером SC11 экрана и SC21 экрана.

Следует отметить, что ради упрощения объяснения в данном описании, предполагают, что центральное положение экрана до и после масштабирования не меняют (перемещают) в вертикальном направлении, как видно с позиции пользователя U11 до масштабирования.

С учетом информации масштабирования, определены точка SCO21 в центральном положении SC21 экрана и точки SCE21 и SCE22, которые являются концевыми в горизонтальном направлении экрана SC21.

При поставке информации масштабирования, корректируют информацию местоположения объекта OB61 на основании информации масштабирования, и положение локализации звукового образа объекта OB61 перемещается в положение в соответствии с масштабированием. Кроме того, выполняют процесс масштабирования на изображении контента.

При такой компоновке, изображение, с помощью которого U11 пользователь переместился перед виртуальным SC21 экраном, и положение локализации звукового образа также изменяется. Другими словами, выполняют управление отображением изображения и управление локализации звукового образа таким образом, что пользователь U11 по-видимому, перемещается, как показано стрелкой M11.

При выполнении процесса масштабирования, положение пользователя U11 изменяются на положение в фронтальной части экрана SC21, как показано стрелкой А12, например, и, следовательно, объект OB61 становится расположенным по диагонали вперед-влево, как видно из положения пользователя U11.

Например, допускают, что линия L63 является линией, проходящей через положение пользователя U11, то есть, начало координат О, после масштабирования, а также перпендикулярно к поверхности экрана SC21. В это время, точка пересечения линии L63 и SC21 экрана становится точкой SCO21 в центральном положении экрана SC21, и положение точки SCO21, как видно из положения пользователя U11, после масштабирования является положением, в котором горизонтальный угол направления и вертикальный угол направления равны 0 градусов.

Кроме того, допустим, что линия L64 будет линией, соединяющей начало координат O после масштабирования и объект OB61. При условии, что φ’ является углом, полученным между линией L63 и линией L64, положение объекта OB61, как видно из положения пользователя U11, после масштабирования является положением, в котором горизонтальный угол φ’ направления и вертикальный угол направления составляют 0 градусов.

Когда информацию масштабирования подают таким образом, горизонтальный угол φ направления, указывающий положение в горизонтальном направлении объекта OB61 корректируют до φ’.

В частности, горизонтальный угол φ’ направления в горизонтальном направлении после коррекции информации местоположения объекта OB61 вычисляют следующим образом.

Другими словами, предположим, что масштабирование выполняют в состоянии, в котором объект OB61 находится по диагонали вперед-вправо от пользователя U11, как показано стрелкой А21 на фиг.10, например, и после масштабирования, объект OB61 становится расположенный по диагонали вперед-влево от пользователя U11, как показано стрелкой А22 на фиг.10. Обратите внимание, что на фиг.10, части, соответствующие случаю, на фиг. 9, обозначены теми же ссылочными позициями, и их описание опущено.

Как показано стрелками А21 на фиг.10, например, пусть φreproleft является углом, полученным между линией, соединяющей положение пользователя U11, то есть, начало координат О, до масштабирования и точкой SCE11, и линией L61. Аналогично, пусть φreproright является углом, полученным между линией, соединяющей начало координат О до масштабирования и точкой SCE12, и линией L61. Эти углы φreproleft и φreproright являются известной информацией.

Кроме того, пусть φZASourceleft является углом, полученным между линией, соединяющей положение пользователя U11, то есть, началом координат О до масштабирования и точкой SCE21, и линией L61. Кроме того, пусть φZASourcerightявляется углом, полученным между линией, соединяющей начало координат О до масштабирования и точкой SCE22, и линией L61. Эти углы φZASourceleft и φZASourcerightмогут быть вычислены из информации масштабирования.

Кроме того, при условии, что относительное взаимное расположение между U11 пользователем и виртуальным экраном такое же до и после масштабирования, как показано стрелкой А22, угол, полученный между линией, соединяющей положение пользователя U11, то есть, началом координат О после масштабирования и точкой SCE21, и L63 становится φreproleft. Аналогичным образом, угол, полученный между линией, соединяющей начало координат O после масштабирования и точкой SCE22, и линия L63 становится φreproright.

При использовании данных углов φreproleft, φreproright, φZASourceleft и φZASourceright, а также горизонтального угла φ направления в неоткорректированной информации местоположения объекта OB61, может быть вычислен горизонтальный угол φ’ направления в откорректированной информации местоположения объекта OB61. Другими словами, горизонтальный угол φ’ направления может быть вычислен согласно следующей формуле (7).

Формула 7

Следует отметить, что выше описан пример, в котором положение центра экрана не изменяется в вертикальном направлении до и после масштабирования. Тем не менее, даже в том случае, в котором положение центра экрана также изменяется в вертикальном направлении до и после масштабирования, вертикальный угол направления в скорректированной информации местоположения объекта может быть вычислен аналогично горизонтальному направлению.

Например, пусть θ будет вертикальным углом направления информации местоположения объекта до масштабирования, то есть, до коррекции, и пусть θ’ является вертикальным углом направления информации местоположения объекта после масштабирования, то есть, после коррекции.

Кроме того, пусть θreprotop является углом, полученным между линией, соединяющей положение пользователя, то есть, началом координат О до и после масштабирования и центр виртуального экрана, и линией, соединяющей начало координат О и верхний край виртуального экрана. Пусть θreprobottom является углом, полученным между линией, соединяющей начало координат О до и после масштабирования и центром виртуального экрана, и линией, соединяющей начало координат О и нижний край виртуального экрана. Эти углы θreprotop и θreprobottom известны.

Кроме того, пусть θZASourcetop является углом, полученным между линией, соединяющей начало координат О до масштабирования и центр виртуального экрана до масштабирования, и линией, соединяющей начало координат О до масштабирования и верхний край виртуального экрана после масштабирования. Аналогично, пусть θZASourcebottom является углом, полученным между линией, соединяющей начало координат О до масштабирования и центр виртуального экрана до масштабирования, и линией, соединяющей начало координат О до масштабирования и нижний край виртуального экрана после масштабирования. Эти углы θZASourcetop и θZASourcebottom могут быть вычислены из информации масштабирования.

В этом случае, при использовании углов θreprotop, θreprobottom, θZASourcetop и θZASourcebottom, а также вертикального угла θ направления в неоткорректированной информации местоположения объекта, может быть вычислен вертикальный угол θ’ направления в скорректированной информации местоположения объекта. Другими словами, вертикальный угол θ’ направления может быть вычислен в соответствии со следующей формулой (8).

Формула 8

При получении скорректированной информации местоположения объекта, вычислением по формуле (7), формуле (8) или тому подобное на основе информации масштабирования и нескорректированной информации местоположения объекта, могут быть скорректированы горизонтальный угол направления, вертикальный угол направления и радиус объекта, содержащиеся в информации местоположения объекта.

В том же время, соотношение углов распространения до и после масштабирования является таким же, как взаимосвязь горизонтальных углов направления и соотношение вертикальных углов направления, указанных информацией местоположения объекта до и после масштабирования. По этой причине, путем выполнения вычисления, аналогично формулам (7) и (8), можно скорректировать информацию распространения надлежащим образом. Другими словами, генерируют соответствующую информацию распространения после масштабирования.

В частности, например, предположим, что звуковой образ аудиообъекта должно быть распространено асимметрично в горизонтальном направлении и вертикальном направлении, и предположим, что информация swidth (ifrm) распространения и информация sheight(ifrm) распространения заданы как информация распространения в текущем кадре ifrm до масштабирования.

Кроме того, допустим, что s'width(ifrm) будет углом распространения в горизонтальном направлении в текущем кадре ifrm после масштабирования, и допустим, что s'height (ifrm) будет углом распространения в вертикальном направлении в текущем кадре ifrm после масштабирования. Другими слова, информация, содержащая информацию s'width(ifrm) распространения и информацию s'height (ifrm) распространения, рассматривают, как информация распространения после коррекции (после масштабирования), которая была скорректирована в соответствии с масштабированием на основании информации масштабирования.

В этом случае, путем замены φ и φ’ в формуле (7) на swidth(irrm) и s'width(ifrm), может быть получена скорректированная информация s'width (ifrm) распространения. Аналогичным образом, путем замены θ и θ’ в формуле (8) на sheight (ifrm) и s'height(ifrm), может быть получена скорректированная информация s'height (ifrm) распространения.

Другими словами, посредством оценки формулы (9) ниже, на основании до масштабирования (без корректировки) информации swidth (ifrm) распространения в текущем кадре ifrm объекта, может быть получена скорректированная (после масштабирования) информация s'width( ifrm) распространения.

Кроме того, путем оценки формулы (10) ниже на основании до масштабирования (без корректировки) информации sheight (ifrm) распространения в текущем кадре ifrm объекта, может быть получена скорректированная информация s'height (ifrm) распространения.

Формула 9

Формула 10

Как полагают, посредством коррекции информации распространения в соответствии с этими формулами (9) и (10) можно генерировать информацию распространения после масштабирования в текущем кадре ifrm объекта на основании взаимосвязи между положением и размером между виртуальным SC11 экраном до масштабирования и SC21 виртуальным экраном после масштабирования, определяемым с помощью информации масштабирования, а также на основании информации распространения до масштабирования в текущем кадре ifrm объекта.

Следует отметить, что, хотя выше описан пример случая, в котором звуковой образ аудиообъекта должен быть распространен асимметрично в горизонтальном направлении и вертикальном направлении, например, можно скорректировать информацию распространения аналогично даже в случае, в котором звуковой образ должен быть распределен симметрично в горизонтальном направлении и вертикальном направлении.

В таком случае, например, при условии, что s' (ifrm) является скорректированной информацией распределения, достаточно выполнить вычисления путем замены информации swidth (ifrm) распространения и информации s'width (ifrm) распространения в формуле (9) на информацию s (ifrm) распространения и информацию s’ (ifrm) распространения.

Примерная конфигурация устройства декодирования

В случае, в котором корректируют информацию местоположения объекта и информацию распространения на основании информации масштабирования, как описано выше, устройство декодирования сконфигурировано, как показано на фиг. 11, например. Следует отметить, что на фиг. 11, участки, соответствующие случаю, на фиг.4, обозначены теми же ссылочными позициями, и их описание опущено.

Устройство 101 декодирования проиллюстрировано на фиг. 11 и включает в себя блок 111 распаковки/декодирования, блок 112 генерирования информации распространения, блок 113 визуализации и блок 114 смешивания. Кроме того, блок 112 генерирования информации распространения устройства 101 декодирования, показанного на фиг.11, снабжен блоком 161 коррекции информации местоположения и блоком 162 коррекции информации распространения.

Устройство 101 декодирования, показанное на фиг. 11, отличается от устройства 101 декодирования, показанного на фиг. 4, в том, что блок 112 генерирования информации распространения снабжен блоком 161 коррекции информации местоположения и блоком 162 коррекции информации распространения, но в остальном имеет ту же конфигурацию устройства 101 декодирования, показанного на фиг. 4.

В этом примере, метаданные во всех кадрах каждого объекта подают из блока 111 распаковки/декодирования в блок 112 генерирования информации распространения. В этом случае, метаданные всегда содержит информацию местоположения объекта и информацию распространения. Кроме того, в блок 112 генерирования информации распространения также подают информацию масштабирования в соответствии с операцией пользователя или тому подобное.

Блок 161 коррекции информации местоположения блока 112 генерирования информации распространения корректирует информацию местоположения объекта, содержащуюся в метаданных, подаваемую из блока 111 распаковки/декодирования, на основании поставленной информации масштабирования.

Блок 162 коррекции информации распространения блока 112 генерирования информации распространения корректирует информацию распространения, содержащуюся в метаданных, подаваемых из блока 111 распаковки/декодирования на основании поставляемой информации масштабирования. Другими словами, блок 162 коррекции информации распространения генерирует информацию распространения после масштабирования на основании информации масштабирования и информации масштабирования до масштабирования (без корректировки).

Блок 112 генерирования информации распространения поставляет метаданные каждого объекта, содержащие скорректированную информацию местоположения объекта и скорректированную информацию распространения в блок 113 визуализации.

Описание процесса декодирования

Далее будут описаны операции устройства 101 декодирования, показанного на фиг. 11.

Другими словами, в дальнейшем, описание процесса декодирования посредством устройства 101 декодирования, показанного на фиг.11, будет приведено со ссылкой на блок-схему алгоритма на фиг. 12.

Следует отметить, что поскольку процессы на этапе S141 и этапе S142 аналогичны процессам этапа S51 и этапа S52 на фиг. 5, то описание будет опущено. Тем не менее, на этапе S142, метаданные, содержащие информацию местоположения объекта и информацию распространения для каждого объекта, подают в блок 112 генерирования информации распространения.

На этапе S143, блок 161 коррекции информации местоположения корректирует информацию местоположения объекта, содержащуюся в метаданных, подаваемую из блока 111 распаковки/декодирования, на основании поставляемой информации масштабирования.

Другими слова, блок 161 коррекции информации местоположения корректирует горизонтальный угол направления, вертикальный угол направления и радиус, содержащиеся в информации местоположения объекта, на основании информации масштабирования и информации местоположения объекта, содержащейся в метаданных, подаваемый из блока 111 распаковки/декодирования.

В частности, блок 161 коррекции информации местоположения вычисляет скорректированный горизонтальный φ’ направления, указывающий положение объекта путем оценки формулы (7), описанной выше, а также вычисляет скорректированный вертикальный угол θ’ направления, указывающий положение объекта путем оценки формулы (8), описанной ранее. Кроме того, блок 161 коррекции информации местоположения вычисляет скорректированный радиус, указывающий положение объекта путем деления радиуса, указывающий положение объекта по степени масштабирования.

На этапе S144, блок 162 коррекции информации распространения корректирует информацию распространения, содержащуюся в метаданных, подаваемую из блока 111 распаковки/декодирования, на основании поставленной информации масштабирования. Другими словами, генерируют информацию распространения после масштабирования в соответствии с масштабированием.

Например, предположим, что информации swidth(ifrm) распространения и информации sheight (ifrm) распространения используют в качестве информации распространения метаданных, подаваемой из блока 111 распаковки/декодирования. В этом случае, блок 162 коррекции информации распространения вычисляет скорректированную информацию s’width(ifrm) распространения и информацию s'height(ifrm) распространения путем оценки вышеуказанных формул (9) и (10) на основании вышеуказанной информации распространения и информации масштабирования.

Когда информация местоположении объекта и информация распространения корректируются таким образом, блок 112 генерирования информации распространения поставляет метаданные каждого объекта, содержащие скорректированную информацию местоположения объекта и скорректированную информацию распространения в блок 113 визуализации.

Следует отметить, что в случае, в котором информация масштабирования не поступает, то есть, в случае, в котором не выполняют масштабирование, в частности, процессы на этапе S143 и этапе S144 не выполняется. Другими словами, информацию местоположения объекта и информацию распространения не корректируют.

После выполнения процесса на этапе S144 выполняют процессы с этапа S145 по этап S147 и процесс декодирования завершается, но так как эти процессы аналогичны процессам от этапа S55 до этапа S57 на фиг. 5, то описание опущено.

Как указано выше, устройство 101 декодирования корректирует информацию местоположении объекта и информацию распространения каждого объекта и выполняет визуализацию.

При такой компоновке можно легко получить соответствующую информацию местоположения объекта и информацию распространения, и может быть достигнут эффект более реалистичного воспроизведения контента.

Дополнительно, третий вариант осуществления также может быть объединен с первым вариантом осуществления или вторым вариантом осуществления.

Например, в случае объединения второго варианта осуществления и третьего варианта осуществления, после выполнения процесса на этапе S113 как часть процесса декодирования, описанного со ссылкой на фиг. 8, выполняют процессы на этапе S143 и этапе S144 на фиг. 12, и после этого выполняют процессы на этапах S114-S116.

Конфигурируя процессы таким образом, можно легко получить соответствующую информацию распространенная в соответствии с информацией масштабирования, даже если есть кадры, не имеющие информацию распространения.

Примерная конфигурация компьютера

Между прочим, описанная выше последовательность процессов может быть выполнена с помощью аппаратных средств или может быть выполнена с помощью программного обеспечения. В случае, когда последовательность обработки выполняют с помощью программных средств, программа формирования программного обеспечения установлена в компьютер. Примеры компьютера включают в себя компьютер, встроенный в специализированное аппаратное средство, и персональный компьютер общего назначения, который может выполнять различные типы функций путем установки различных типов программ.

На фиг.13 показана блок-схема, иллюстрирующая пример конфигурации аппаратных средств компьютера, который выполняет описанную выше последовательность процессов программой.

В компьютере, центральный процессор (CPU) 501, постоянное запоминающее устройство (ROM) 502 и оперативное запоминающее устройство (RAM) 503 взаимно соединены с помощью шины 504.

Кроме того, интерфейс 505 ввода/вывода подключен к шине 504. К интерфейсу 505 ввода/вывода подключены блок 506 ввода, блок 507 вывода, блок 508 записи, блок 509 связи и привод 510.

Блок 506 ввода включает в себя клавиатуру, мышь, микрофон, датчик изображения, и тому подобное. Блок 507 вывода включает в себя дисплей, динамик и тому подобное. Блок 508 записи включает в себя жесткий диск, энергонезависимую память и тому подобное. Блок 509 связи включает в себя сетевой интерфейс и тому подобное. Привод 510 приводит в действие съемный носитель 511 записи, такой как магнитный диск, оптический диск, магнитооптический диск и полупроводниковое запоминающее устройство.

В компьютере, сконфигурированном, как описано выше, CPU 501 загружает программу, которая записывается, например, в блоке 508 записи на RАM 503 через интерфейс 505 ввода/вывода и шину 504, и выполняет программу, тем самым, выполняя описанную выше последовательность процессов.

Например, программа, выполняемая с помощью компьютера (CPU 501) может быть записана и представлена в съемном носителе 511 записи, который представляет собой упакованный носитель или тому подобные. Кроме того, программы могут быть предоставлены с помощью проводной или беспроводной среды передачи, такой как локальная сеть, интернет и цифровое спутниковое вещание.

В компьютере, путем установки съемного носителя 511 записи на диск 510, программы могут быть установлены в блок 508 записи через интерфейс 505 ввода/вывода. Кроме того, программа также может быть получена с помощью блока 509 связи с помощью проводной или беспроводной среды передачи, и установлена в блок 508 записи. Кроме того, программы могут быть установлены заранее в ROM 502 или блоке 508 записи.

Следует отметить, что программа, выполняемая компьютером, может представлять собой программу, в которой выполняют процессы в хронологическом порядке, описанном в данном документе, или может представлять собой программу, в которой процессы выполняют параллельно или в необходимые моменты времени, например, при вызове процессов.

Кроме того, варианты осуществления настоящего изобретения не ограничиваются описанными выше вариантами осуществления, и различные изменения могут быть выполнены, поскольку они находятся в пределах объема настоящего изобретения.

Например, данная технология может принять конфигурацию облачных вычислений, в котором множество устройств разделяет одну функцию через сеть и совместно выполняют процессы.

Кроме того, каждый этап в описанных выше блок-схемах алгоритма могут быть выполнены одним устройством или совместно с помощью множества устройств.

Кроме того, в случае, когда один этап включает в себя множество процессов, множество процессов в одном этапе могут быть выполнены с помощью одного устройства или совместно с помощью множества устройств.

Список ссылочных позиций

11 устройство кодирования

22 блок кодирования аудиообъекта

23 блок ввода метаданных

24 блок генерирования информации распространения

101 устройство декодирования

111 блок распаковки/декодирования

112 блок генерирования информации распространения

113 блок визуализации

161 блок коррекции информации местоположения объекта

162 блок коррекции информации распространения

Реферат

Настоящее изобретение относится к средствам для обработки сигнала. Технический результат заключается в повышении эффективности обработки сигнала. Генерируют информацию распространения в подлежащем обработке кадре аудиообъекта на основании информации местоположения объекта в подлежащем обработке кадре аудиообъекта и любой из информации распространения в другом кадре, отличающемся от подлежащего обработке кадра аудиообъекта, информации масштабирования и информации размера аудиообъекта. Сгенерированная информация распространения является информацией угла, указывающей диапазон размера звукового образа аудиообъекта. 3 н. и 9 з.п. ф-лы, 13 ил.

Формула

1. Устройство обработки сигнала, содержащее:
блок генерирования информации распространения, выполненный с возможностью генерирования информации распространения в подлежащем обработке кадре аудиообъекта на основании информации местоположения объекта в подлежащем обработке кадре аудиообъекта и любой из информации распространения в другом кадре, отличающемся от подлежащего обработке кадра аудиообъекта, информации масштабирования и информации размера аудиообъекта; причем
информация распространения, сгенерированная блоком генерирования информации распространения, является информацией угла, указывающей диапазон размера звукового образа аудиообъекта.
2. Устройство обработки сигнала по п.1, в котором
блок генерирования информации распространения выполнен с возможностью генерирования информации распространения в подлежащем обработке кадре на основании информации распространения в другом кадре аудиообъекта и информации местоположения объекта в подлежащем обработке кадре, а также в другом кадре аудиообъекта.
3. Устройство обработки сигнала по п.2, в котором
информация местоположения объекта является расстоянием от опорного положения до аудиообъекта.
4. Устройство обработки сигнала по п.3, в котором
блок генерирования информации распространения выполнен с возможностью генерирования арктангенса произведения соотношения расстояния в подлежащем обработке кадре и расстояния в указанном другом кадре и тангенса информации распространения в указанном другом кадре в качестве информации распространения в подлежащем обработке кадре.
5. Устройство обработки сигнала по п.1, в котором
блок генерирования информации распространения выполнен с возможностью генерирования информации распространения в подлежащем обработке кадре аудиообъекта после масштабирования на основании информации масштабирования и информации распространения в подлежащем обработке кадре аудиообъекта до масштабирования.
6. Устройство обработки сигнала по п.5, в котором
блок генерирования информации распространения выполнен с возможностью генерирования информации распространения в подлежащем обработке кадре аудиообъекта после масштабирования на основании взаимосвязи положения и размера между виртуальным экраном до масштабирования и виртуальным экраном после масштабирования, определенного информацией масштабирования.
7. Устройство обработки сигнала по п.1, в котором
блок генерирования информации распространения выполнен с возможностью генерирования информации распространения в подлежащем обработке кадре на основании информации размера и информации местоположения объекта в подлежащем обработке кадре аудиообъекта.
8. Устройство обработки сигнала по п.7, в котором
информация размера является расстоянием от центра к граничной области аудиообъекта.
9. Устройство обработки сигнала по п.8, в котором
информация местоположения объекта является расстоянием от опорного положения до аудиообъекта.
10. Устройство обработки сигнала по п.9, в котором
блок генерирования информации распространения выполнен с возможностью генерирования арктангенса соотношения информации размера и информации местоположения объекта в подлежащем обработке кадре в качестве информации распространения в подлежащем обработке кадре.
11. Способ обработки сигнала, содержащий этап, на котором:
генерируют информацию распространения в подлежащем обработке кадре аудиообъекта на основании информации местоположения объекта в подлежащем обработке кадре аудиообъекта и любой из информации распространения в другом кадре, отличающемся от подлежащего обработке кадра аудиообъекта, информации масштабирования и информации размера аудиообъекта; причем
сгенерированная информация распространения является информацией угла, указывающей диапазон размера звукового образа аудиообъекта.
12. Носитель информации, хранящий программу, вызывающую выполнение компьютером обработки, содержащей этап, на котором:
генерируют информацию распространения в подлежащем обработке кадре аудиообъекта на основании информации местоположения объекта в подлежащем обработке кадре аудиообъекта и любой из информации распространения в другом кадре, отличающемся от подлежащего обработке кадра аудиообъекта, информации масштабирования и информации размера аудиообъекта; причем
сгенерированная информация распространения является информацией угла, указывающей диапазон размера звукового образа аудиообъекта.

Патенты аналоги

Авторы

Патентообладатели

СПК: G10L21/0388 G10L21/055

Публикация: 2022-01-11

Дата подачи заявки: 2018-04-11

0
0
0
0
Невозможно загрузить содержимое всплывающей подсказки.
Поиск по товарам