Устройство и способ для разложения звукового сигнала с использованием переменного порогового значения - RU2734288C1

Код документа: RU2734288C1

Чертежи

Показать все 13 чертежа(ей)

Описание

Подробное описание изобретения

Настоящее изобретение относится к аудиообработке и, в частности, к разложению аудиосигналов на сигнал фонового компонента и сигнал компонента переднего плана.

Существует значительное число ссылочных материалов, направленных на обработку аудиосигналов, причем некоторые из этих ссылочных материалов относятся к разложению аудиосигналов. Примерные ссылочные материалы являются следующими:

[1] S. Disch and A. Kuntz, A Dedicated Decorrelator for Parametric Spatial Coding of Applause-Like Audio Signals. Springer-Verlag, январь 2012 года, стр. 355-363.

[2] A. Kuntz, S. Disch, T. Bäckström and J. Robilliard, "The Transient Steering Decorrelator Tool in the Upcoming MPEG Unified Speech and Audio Coding Standard", in 131st Convention ofthe AES, Нью-Йорк, США, 2011 год.

[3] A. Walther, C. Uhle and S. Disch, "Using Transient Suppression in Blind Multi-channel Upmix Algorithms", in Proceedings, 122nd AES Pro Audio Expo and Convention, май 2007 года.

[4] G. Hotho, S. van de Par and J. Breebaart, "Multichannel coding of applause signals", EURASIP J. Adv. Signal Process, издание 2008, январь 2008 года. [Онлайн]. По адресу: http://dx.doi.org/10.1155/2008/531693

[5] D. FitzGerald, "Harmonic/Percussive Separation Using Median Filtering", in Proceedings of the 13th International Conference on Digital Audio Effects (DAFx-10), Грац, Австрия, 2010 год.

[6] J. P. Bello, L. Daudet, S. Abdallah, C. Duxbury, M. Davies and M. B. Sandler, "A Tutorial on Onset Detection in Music Signals", IEEE Transactions on Speech and Audio Processing, издание 13, номер 5, стр. 1035-1047, 2005.

[7] M. Goto and Y. Muraoka, "Beat tracking based on multiple-agent architecture - the real-time beat tracking system for audio signals", in Proceedings of the 2nd International Conference onMultiagent Systems, 1996 год, стр. 103-110.

[8] A. Klapuri, "Sound onset detection by applying psychoacoustic knowledge", in Proceedings of the International Conference on Acoustics, Speech and Signal Processing (ICASSP), издание 6, 1999 год, стр. 3089-3092, издание 6.

Кроме того, WO 2010017967 раскрывает устройство для определения пространственного выходного многоканального аудиосигнала на основе входного аудиосигнала, содержащее модуль семантического разложения для разложения входного аудиосигнала на первый разложенный сигнал, представляющий собой часть переднего плана сигнала, и на второй разложенный сигнал, представляющий собой фоновую часть сигнала. Кроме того, модуль рендеринга выполнен с возможностью рендеринга части переднего плана сигнала с использованием амплитудного панорамирования и рендеринга фоновой части сигнала посредством декорреляции. В завершение, первый подготовленный посредством рендеринга сигнал и второй подготовленный посредством рендеринга сигнал обрабатываются, чтобы получать пространственный выходной многоканальный аудиосигнал.

Кроме того, ссылочные материалы [1] и [2] раскрывают декоррелятор с регулированием переходных частей.

Еще не публикованная заявка на патент (Европа) 16156200.4 раскрывает обработку огибающей с высоким разрешением. Обработка огибающей с высоким разрешением представляет собой инструментальное средство для улучшенного кодирования сигналов, которые преимущественно состоят из множества плотных переходных событий, таких как аплодисменты, звуки дождя и т.д. На стороне кодера, инструментальное средство работает в качестве препроцессора с высоким временным разрешением перед фактическим перцепционным аудиокодеком посредством анализа входного сигнала, ослабления и за счет этого временного сглаживания высокочастотной части переходных событий и формирования небольшого объема вспомогательной информации, к примеру, 1-4 Кбит/с для стереосигналов. На стороне декодера инструментальное средство работает в качестве постпроцессора после аудиокодека посредством повышения и за счет этого временного формирования высокочастотной части переходных событий, с использованием вспомогательной информации, которая сформирована во время кодирования.

Повышающее микширование обычно заключает в себе разложение сигналов на прямые и окружающие части сигнала, при этом прямой сигнал панорамируется между громкоговорителями, и окружающая часть декоррелируется и распределяется по данному числу каналов. Оставшиеся прямые компоненты, такие как переходные части, в окружающих сигналах, приводят к ухудшению результирующего воспринимаемого объемного окружения в повышающе микшированной звуковой сцене. В [3] предлагается обнаружение и обработка переходных частей, что уменьшает обнаруженные переходные части в окружающем сигнале. Один способ, предложенный для обнаружения переходных частей, содержит сравнение между взвешенной суммой частоты элементов разрешения в одном временном блоке и взвешенным средним значением выполнения длительного времени для определения того, должен или нет подавляться определенный блок.

В [4] рассматривается эффективное пространственное кодирование аудио сигналов аплодисментов. Предложенные способы понижающего микширования и повышающего микширования работают с полным сигналом аплодисментов.

Кроме того, ссылочный материал [5] раскрывает гармоническое/перкуссионное разделение, в котором сигналы разделяются в гармонике и перкуссионных компонентах сигнала посредством применения медианных фильтров к спектрограмме в горизонтальном и вертикальном направлении.

Ссылочный материал [6] представляет учебное руководство, содержащее подходы на основе частотной области, подходы на основе временной области, такие как модуль следования за огибающей или модуль следования за энергией, в контексте обнаружения вступления. Ссылочный материал [7] раскрывает отслеживание мощности в частотной области, к примеру, быстрое увеличение мощности, и ссылочный материал [8] раскрывает новый показатель для целей обнаружения вступления.

Разделение сигнала на часть переднего плана и фона сигнала, как описано в ссылочных материалах предшествующего уровня техники, является невыгодным вследствие того факта, что такие известные процедуры могут приводить к уменьшенному качеству звука результирующего сигнала или разложенных сигналов.

Цель настоящего изобретения заключается в том, чтобы предоставлять усовершенствованный принцип для целей разложения аудиосигнала на сигнал фонового компонента и сигнал компонента переднего плана.

Это цель достигается посредством устройства для разложения аудиосигнала на сигнал фонового компонента и сигнал компонента переднего плана по п. 1, способа для разложения аудиосигнала на сигнал фонового компонента и сигнал компонента переднего плана по п. 20 либо посредством компьютерной программы по п. 21.

В одном аспекте устройство для разложения аудиосигнала на сигнал фонового компонента и сигнал компонента переднего плана содержит генератор блоков для формирования временной последовательности блоков значений аудиосигналов, анализатор аудиосигналов, соединенный с генератором блоков, и модуль разделения, соединенный с генератором блоков и анализатором аудиосигналов. В соответствии с первым аспектом, анализатор аудиосигналов выполнен с возможностью определения блочной характеристики текущего блока аудиосигнала и средней характеристики для группы блоков, причем группа блоков содержит, по меньшей мере, два блока, к примеру, предшествующий блок, текущий блок и следующий блок либо еще больше предшествующих блоков или больше следующих блоков.

Модуль разделения выполнен с возможностью разделения текущего блока на фоновую часть и часть переднего плана в ответ на соотношение блочной характеристики текущего блока и средней характеристики. Таким образом, сигнал фонового компонента содержит фоновую часть текущего блока, и сигнал компонента переднего плана содержит часть переднего плана текущего блока. Следовательно, текущий блок не определяется просто как фоновый или с переднего плана. Вместо этого, текущий блок фактически разделяется на ненулевую фоновую часть и ненулевую часть переднего плана. Эта процедура отражает такую ситуацию, что, типично, сигнал переднего плана никогда не существует отдельно в сигнале, а всегда комбинируется с сигнала фонового компонента. Таким образом, настоящее изобретение, в соответствии с этим первым аспектом, отражает такую ситуацию, что независимо от того, выполняется или нет определенная пороговая обработка, фактическое разделение либо без порогового значения, либо когда определенное пороговое значение достигается посредством соотношения, фоновая часть в дополнение к части переднего плана всегда остается.

Кроме того, разделение осуществляется посредством очень конкретного показателя разделения, т.е. соотношения блочной характеристики текущего блока и средней характеристики, извлекаемой, по меньшей мере, из двух блоков, т.е. извлекаемой из группы блоков. Таким образом, в зависимости от размера группы блоков, может задаваться достаточно медленно изменяющееся скользящее среднее или достаточно быстро изменяющееся скользящее среднее. Для высокого числа блоков в группе блоков, скользящее среднее является относительно медленно изменяющимися, тогда как для небольшого числа блоков в группе блоков, скользящее среднее является достаточно быстро изменяющимся. Кроме того, использование взаимосвязи между характеристикой из текущего блока и средней характеристикой по группе блоков отражает перцепционную ситуацию, т.е. то, что люди воспринимают определенный блок как содержащий компонент переднего плана, когда соотношение между характеристикой этого блока относительно среднего имеет определенное значение. Тем не менее, в соответствии с этим аспектом, это определенное значение не обязательно должно быть пороговым значением. Вместо этого, непосредственно соотношение уже может использоваться для выполнения количественного разделения текущего блока на фоновую часть и часть переднего плана. Высокое соотношение приводит к высокой части текущего блока, представляющей собой часть переднего плана, в то время как низкое соотношение приводит в ситуации, когда большая часть или весь текущий блок остается в фоновой части, и текущий блок имеет только небольшую часть переднего плана либо вообще не имеет части переднего плана.

Предпочтительно, связанная с амплитудой характеристика определяется, и эта связанная с амплитудой характеристика, такая как энергия текущего блока, сравнивается со средней энергией группы блоков, чтобы получать соотношение, на основе которого выполняется разделение. Чтобы удостоверяться в том, что в ответ на разделение фоновый сигнал остается, определяется коэффициент усиления, и этот коэффициент усиления затем управляет тем, сколько из средней энергии определенного блока остается в фоновом или шумоподобном сигнале, и тем, какая часть переходит в часть переднего плана сигнала, которая, например, может представлять собой переходный сигнал, такой как сигнал хлопков или сигнал дождя и т.п.

В дополнительном втором аспекте настоящего изобретения, который может использоваться в дополнение к первому аспекту или отдельно от первого аспекта, устройство для разложения аудиосигнала содержит генератор блоков, анализатор аудиосигналов и модуль разделения. Анализатор аудиосигналов выполнен с возможностью анализа характеристики текущего блока аудиосигнала. Характеристика текущего блока аудиосигнала может представлять собой соотношение, как пояснено относительно первого аспекта, но, альтернативно, также может представлять собой блочную характеристику, извлекаемую только из текущего блока без усреднения. Кроме того, анализатор аудиосигналов выполнен с возможностью определения изменчивости характеристики в группе блоков, причем группа блоков содержит, по меньшей мере, два блока и предпочтительно, по меньшей мере, два предшествующих блока с/без текущего блока или, по меньшей мере, два следующих блока с/без текущего блока либо, по меньшей мере, два предшествующих блока, по меньшей мере, два следующих блока, снова с/без текущего блока. В предпочтительных вариантах осуществления, число блоков превышает 30 или даже 40.

Кроме того, модуль разделения выполнен с возможностью разделения текущего блока на фоновую часть и часть переднего плана, причем этот модуль разделения выполнен с возможностью определять пороговое значение разделения на основе изменчивости, определенной посредством анализатора сигналов, и разделять текущий блок, когда характеристика текущего блока находится в предварительно определенной взаимосвязи с пороговым значением разделения, к примеру, больше, чем или равна пороговому значению разделения. Естественно, когда пороговое значение задается в качестве вида обратного значения, то предварительно определенная взаимосвязь может представлять собой взаимосвязь "меньше, чем" или взаимосвязь "меньше, чем или равно". Таким образом, пороговая обработка всегда выполняется таким образом, что когда характеристика находится в предварительно определенной взаимосвязи с пороговым значением разделения, то разделение на фоновую часть и часть переднего плана выполняется, тогда как, когда характеристика не находится в предварительно определенной взаимосвязи с пороговым значением разделения, то разделение не выполняется вообще.

В соответствии со вторым аспектом, который использует переменное пороговое значение в зависимости от изменчивости характеристики в группе блоков, разделение может представлять собой полное разделение, т.е. что полный блок значений аудиосигналов вводится в компонент переднего плана, когда разделение выполняется, или полный блок значений аудиосигналов напоминает фоновую часть сигнала, когда предварительно определенная взаимосвязь относительно переменного порогового значения разделения не удовлетворяется. В предпочтительном варианте осуществления этот аспект комбинируется с первым аспектом в том, что как только переменное пороговое значение обнаруживается как находящееся в предварительно определенной взаимосвязи с характеристикой, то недвоичное разделение выполняется, т.е. в том, что только часть значений аудиосигналов помещается в часть переднего плана сигнала, и оставшаяся часть остается в фоновом сигнале.

Предпочтительно, разделение части для части переднего плана сигнала и фоновой части сигнала определяется на основе коэффициента усиления, т.е. идентичные значения сигналов, в конечном счете, находятся в части переднего плана сигнала и фоновой части сигнала, но энергия значений сигналов в других частях отличается друг от друга и определяется посредством усиления при разделении, которое, в конечном счете, зависит от такой характеристики, как блочная характеристика самого текущего блока либо соотношение для текущего блока между блочной характеристикой для текущего блока и средней характеристикой для группы блоков, ассоциированных с текущим блоком.

Использование переменного порогового значения отражает такую ситуацию, что люди воспринимают часть переднего плана сигнала даже в качестве небольшого отклонения от достаточно стационарного сигнала, т.е. когда рассматривается определенный сигнал, который является очень стационарным, т.е. не имеет значительных флуктуаций. В таком случае, даже небольшая флуктуация уже воспринимается в качестве части переднего плана сигнала. Тем не менее, когда имеется сильно флуктуирующий сигнал, то очевидно, что непосредственно сильно флуктуирующий сигнал воспринимается в качестве фонового компонента сигнала, и небольшое отклонение от этого шаблона флуктуаций не воспринимается в качестве части переднего плана сигнала. Только более сильные отклонения от среднего или ожидаемого значения воспринимаются в качестве части переднего плана сигнала. Таким образом, предпочтительно использовать достаточно небольшое пороговое значение разделения для сигналов с небольшой дисперсией и использовать более высокое пороговое значение разделения для сигналов с высокой дисперсией. Тем не менее, когда рассматриваются обратные значения, ситуация является противоположной вышеуказанному.

Оба аспекта, т.е. первый аспект, имеющий недвоичное разделение на часть переднего плана сигнала и фоновую часть сигнала на основе соотношения между блочной характеристикой и средней характеристикой, и второй аспект, содержащий переменное пороговое значение в зависимости от изменчивости характеристики в группе блоков, могут использоваться отдельно друг от друга либо даже могут использоваться вместе, т.е. в комбинации друг с другом. Вторая альтернатива составляет предпочтительный вариант осуществления, как описано ниже.

Варианты осуществления изобретения относятся к системе, в которой входной сигнал разлагается на два компонента сигнала, к которым может применяться отдельная обработка, и в которой обработанные сигналы повторно синтезируются, чтобы формировать выходной сигнал. Аплодисменты, а также другие переходные сигналы могут наблюдаться в качестве наложения отчетливо и отдельно воспринимаемых переходных событий хлопков и более шумоподобного фонового сигнала. Чтобы модифицировать характеристики, такие как соотношение плотности сигналов переднего плана и фона и т.д. для таких сигналов, преимущественно иметь возможность применять отдельную обработку к каждой части сигнала. Дополнительно, получается разделение сигналов, обуславливаемое посредством человеческого восприятия. Кроме того, принцип также может использоваться в качестве измерительного устройства, чтобы измерять характеристики сигналов, к примеру, на веб-узле отправителя и восстанавливать эти характеристики на веб-узле приемника.

Варианты осуществления настоящего изобретения не направлены исключительно на формирование многоканального пространственного выходного сигнала. Входной моносигнал разлагается, и отдельные части сигнала обрабатываются и повторно синтезируются в выходной моносигнал. В некоторых вариантах осуществления принцип, как задано в первом или втором аспекте, выводит измерения или вспомогательную информацию вместо звукового сигнала.

Дополнительно, разделение основано на перцепционном аспекте и предпочтительной количественной характеристике или значении, а не семантическом аспекте.

В соответствии с вариантами осуществления разделение основано на отклонении мгновенной энергии относительно средней энергии в пределах рассматриваемого короткого временного кадра. Хотя переходное событие с энергетическим уровнем, близким или ниже средней энергии в таком временном кадре, не воспринимается в качестве существенно отличающегося от фона, события с высокоэнергетическим отклонением могут отличаться от фонового сигнала. Этот вид разделения сигналов приспосабливает принцип и предоставляет возможность обработки ближе к человеческому восприятию переходных событий и ближе к человеческому восприятию событий переднего плана по сравнению с фоновыми событиями.

Далее поясняются предпочтительные варианты осуществления настоящего изобретения со ссылками на прилагаемые чертежи, на которых:

Фиг. 1a является блок-схемой устройства для разложения аудиосигнала на основе соотношения в соответствии с первым аспектом;

Фиг. 1b является блок-схемой варианта осуществления принципа для разложения аудиосигнала на основе переменного порогового значения разделения в соответствии со вторым аспектом;

Фиг. 1c иллюстрирует блок-схему устройства для разложения аудиосигнала в соответствии с первым аспектом, вторым аспектом или обоими аспектами;

Фиг. 1d иллюстрирует предпочтительную иллюстрацию анализатора аудиосигналов и модуля разделения в соответствии с первым аспектом, вторым аспектом или обоими аспектами;

Фиг. 1e иллюстрирует вариант осуществления модуля разделения сигналов в соответствии со вторым аспектом;

Фиг. 1f иллюстрирует описание принципа для разложения аудиосигнала в соответствии с первым аспектом, вторым аспектом и посредством обращения к различным пороговым значениям;

Фиг. 2 иллюстрирует два различных способа для разделения значений аудиосигналов текущего блока на компонент переднего плана и фоновый компонент в соответствии с первым аспектом, вторым аспектом или обоими аспектами;

Фиг. 3 иллюстрирует схематичное представление перекрывающихся блоков, сформированных посредством генератора блоков, и формирование сигналов компонента переднего плана и сигналов фонового компонента временной области после разделения;

Фиг. 4a иллюстрирует первую альтернативу для определения переменного порогового значения на основе сглаживания необработанных изменчивостей;

Фиг. 4b иллюстрирует определение переменного порогового значения на основе сглаживания необработанных пороговых значений;

Фиг. 4c иллюстрирует различные функции для преобразования (сглаженных) изменчивостей в пороговые значения;

Фиг. 5 иллюстрирует предпочтительную реализацию для определения изменчивости по мере необходимости во втором аспекте;

Фиг. 6 иллюстрирует общее представление по разделению, обработке переднего плана и обработке фона и последующему повторному синтезу сигналов;

Фиг. 7 иллюстрирует измерение и восстановление характеристик сигналов с/без метаданных; и

Фиг. 8 иллюстрирует блок-схему для варианта использования кодера-декодера.

Фиг. 1a иллюстрирует устройство для разложения аудиосигнала на сигнал фонового компонента и сигнал компонента переднего плана. Аудиосигнал вводится на ввод 100 аудиосигналов. Ввод аудиосигналов соединяется с генератором 110 блоков для формирования временной последовательности блоков значений аудиосигналов, выводимых в линии 112. Кроме того, устройство содержит анализатор 120 аудиосигналов для определения блочной характеристики текущего блока аудиосигнала и для определения, помимо этого, средней характеристики для группы блоков, при этом группа блоков содержит, по меньшей мере, 2 блока. Предпочтительно, группа блоков содержит, по меньшей мере, один предшествующий блок или, по меньшей мере, один следующий блок и, помимо этого, текущий блок.

Кроме того, устройство содержит модуль 130 разделения для разделения текущего блока на фоновую часть и часть переднего плана в ответ на соотношение блочной характеристики текущего блока и средней характеристики. Таким образом, соотношение блочной характеристики текущего блока и средней характеристики используется в качестве характеристики, на основе которой выполняется разделение текущего блока значений аудиосигналов. В частности, сигнал фонового компонента в сигнале на выводе 140 сигналов содержит фоновую часть текущего блока, и сигнал компонента переднего плана, выводимый на выводе 150 сигналов компонента переднего плана, содержит часть переднего плана текущего блока. Процедура, проиллюстрированная на фиг. 1a, выполняется на поблочной основе, т.е. один блок временной последовательности блоков обрабатывается после другого таким образом, что, в конечном счете, когда последовательность блоков значений аудиосигналов, вводимых на ввод 100, обработана, соответствующая последовательность блоков сигнала фонового компонента и идентичная последовательность блоков сигнала компонента переднего плана существуют в линиях 140, 150, как поясняется ниже на относительно фиг. 3.

Предпочтительно, анализатор аудиосигналов выполнен с возможностью анализа связанного с амплитудой показателя в качестве блочной характеристики текущего блока, и дополнительно, анализатор 120 аудиосигналов выполнен с возможностью дополнительного анализа связанной с амплитудой характеристики для группы блоков также.

Предпочтительно, показатель мощности или показатель энергии для текущего блока и показатель средней мощности или показатель средней энергии для группы блоков определяются посредством анализатора аудиосигналов, и соотношение между этими двумя значениями для текущего блока используется посредством модуля 130 разделения, чтобы выполнять разделение.

Фиг. 2 иллюстрирует процедуру, выполняемую посредством модуля 130 разделения по фиг. 1a в соответствии с первым аспектом. Этап 200 представляет определение соотношения в соответствии с первым аспектом или характеристики в соответствии со вторым аспектом, что не должно обязательно представлять собой соотношение, но также может представлять собой, например, только блочную характеристику.

На этапе 202, усиление при разделении вычисляется из соотношения или характеристики. Затем сравнение с пороговым значением на этапе 204 может выполняться необязательно. Когда сравнение с пороговым значением выполняется на этапе 204, то результат может заключаться в том, что характеристика находится в предварительно определенной взаимосвязи с пороговым значением. Когда это имеет место, управление переходит к этапу 206. Тем не менее, когда на этапе 204 определяется то, что характеристика не находится во взаимосвязи с предварительно определенным пороговым значением, то разделение не выполняется, и управление переходит к следующему блоку в последовательности блоков.

В соответствии с первым аспектом, сравнение с пороговым значением на этапе 204 может выполняться либо, альтернативно, может не выполняться, как проиллюстрировано посредством пунктирной линии 208. Когда в блоке 204 определяется то, что характеристика находится в предварительно определенной взаимосвязи с пороговым значением разделения или, в альтернативе линии 208, в любом случае, выполняется этап 206, на котором аудиосигналы взвешиваются с использованием усиления при разделении. С этой целью этап 206 принимает значения аудиосигналов для входного аудиосигнала во временном представлении или, предпочтительно, в спектральном представлении, как проиллюстрировано посредством линии 210. Затем в зависимости от применения усиления при разделении компонент C переднего плана вычисляется так, как проиллюстрировано посредством уравнения непосредственно ниже фиг. 2. В частности, усиление при разделении, которое представляет собой функцию от gN и соотношения Ψ, используется не непосредственно, а в форме разности, т.е. функция вычитается из 1. Альтернативно, фоновый компонент N может непосредственно вычисляться посредством фактического взвешивания аудиосигнала A (k, n) посредством функции gN/Ψ(n).

Фиг. 2 иллюстрирует несколько возможностей для вычисления компонента переднего плана и фонового компонента, которые могут выполняться посредством модуля 130 разделения. Одна возможность состоит в том, что оба компонента вычисляются с использованием усиления при разделении. Альтернатива заключается в том, что только компонент переднего плана вычисляется с использованием усиления при разделении, и фоновый компонент N вычисляется посредством вычитания компонента переднего плана из значений аудиосигналов, как проиллюстрировано в 210. Тем не менее, другая альтернатива заключается в том, что фоновый компонент N вычисляется непосредственно с использованием усиления при разделении посредством блока 206, и после этого фоновый компонент N вычитается из аудиосигнала A, чтобы в завершение получать компонент C переднего плана. Таким образом, фиг. 2 иллюстрирует 3 различных варианта осуществления для вычисления фонового компонента и компонента переднего плана, в то время как каждая из этих альтернатив, по меньшей мере, содержит взвешивание значений аудиосигналов с использованием усиления при разделении.

Далее проиллюстрирован фиг. 1b, для того чтобы описывать второй аспект настоящего изобретения на основе переменного порогового значения разделения.

Фиг. 1b, представляющая второй аспект, основывается на аудиосигнале 100, который вводится в формирование 110 блоков, и генератор блоков соединен с анализатором 120 аудиосигналов через соединительную линию 122. Кроме того, аудиосигнал может вводиться в анализатор аудиосигналов непосредственно через дополнительную соединительную линию 111. Анализатор 120 аудиосигналов выполнен с возможностью определения характеристики текущего блока аудиосигнала, с одной стороны, и, дополнительно, определения изменчивости характеристики в группе блоков, причем группа блоков содержит, по меньшей мере, два блока и предпочтительно содержит, по меньшей мере, два предшествующих блока или два следующих блока либо также, по меньшей мере, два предшествующих блока, по меньшей мере, два следующих блока и текущий блок.

Характеристика текущего блока и изменчивость характеристики перенаправляются в модуль 130 разделения через соединительную линию 129. Модуль разделения затем выполнен с возможностью разделения текущего блока на фоновую часть и часть переднего плана, чтобы формировать сигнал 140 фонового компонента и сигнал 150 компонента переднего плана. В частности, модуль разделения выполнен с возможностью, в соответствии со вторым аспектом, определять пороговое значение разделения на основе изменчивости, определенной посредством анализатора аудиосигналов, и разделять текущий блок на часть сигнала фонового компонента и часть сигнала компонента переднего плана, когда характеристика текущего блока находится в предварительно определенной взаимосвязи с пороговым значением разделения. Тем не менее, когда характеристика текущего блока не находится в предварительно определенной взаимосвязи с (переменным) пороговым значением разделения, то разделение текущего блока не выполняется, и полный текущий блок перенаправляется либо используется или назначается в качестве сигнала 140 фонового компонента.

В частности, модуль 130 разделения выполнен с возможностью определять первое пороговое значение разделения для первой изменчивости и второе пороговое значение разделения для второй изменчивости, при этом первое пороговое значение разделения ниже второго порогового значения разделения, и первая изменчивость ниже второй изменчивости, и при этом предварительно определенная взаимосвязь составляет "больше, чем".

Пример проиллюстрирован на фиг. 4c, левая часть, на котором первое пороговое значение разделения указывается на 401, на котором второе пороговое значение разделения указывается на 402, на котором первая изменчивость указывается на 501, и вторая изменчивость указывается на 502. В частности, следует обратиться к верхней кусочно-линейной функции 410, представляющей пороговое значение разделения, тогда как нижняя кусочно-линейная функция 412 на фиг. 4c иллюстрирует пороговое значение сброса, которое описывается ниже. Фиг. 4c иллюстрирует ситуацию, в которой пороговые значения являются такими, что для увеличения изменчивостей, определяются увеличивающиеся пороговые значения. Тем не менее, когда ситуация реализуется таким образом, что, например, применяются обратные пороговые значения относительно пороговых значений на фиг. 4c, то ситуация является такой, что модуль разделения выполнен с возможностью определять первое пороговое значение разделения для первой изменчивости и второе пороговое значение разделения для второй изменчивости, при этом первое пороговое значение разделения превышает второе пороговое значение разделения, и первая изменчивость ниже второй изменчивости, и в этой ситуации, предварительно определенная взаимосвязь составляет "ниже, чем", а не "больше, чем", как в первой альтернативе, проиллюстрированной на фиг. 4c.

В зависимости от некоторых реализаций модуль 130 разделения выполнен с возможностью определять (переменное) пороговое значение разделения либо с использованием табличного доступа, при котором функции, проиллюстрированные на фиг. 4c, левая часть или правая часть, сохраняются, либо в соответствии с интерполяцией монотонной интерполяционной функции между первым пороговым значением 401 разделения и вторым пороговым значением 402 разделения таким образом, что для третьей изменчивости 503, получается третье пороговое значение 403 разделения, а для четвертой изменчивости 504, получается четвертое пороговое значение, при этом первое пороговое значение 401 разделения ассоциировано с первой изменчивостью 501, и второе пороговое значение 402 разделения ассоциировано со второй изменчивостью 502, и при этом третья и четвертая изменчивости 503, 504 расположены, относительно их значений, между первой и второй изменчивостями, и третье и четвертое пороговые значения 403, 404 разделения расположены относительно их значений, между первым и вторым пороговыми значениями 401, 402 разделения.

Как проиллюстрировано на фиг. 4c левая часть, монотонная интерполяция представляет собой линейную функцию, либо, как проиллюстрировано на фиг. 4c, правая часть, монотонная интерполяционная функция представляет собой кубическую функцию или любую степенную функцию с порядком, большим, чем 1.

Фиг. 6 иллюстрирует высокоуровневую блок-схему разделения сигналов аплодисментов, обработки и синтеза обработанных сигналов.

В частности, каскад 600 разделения, который проиллюстрирован подробно на фиг. 6, разделяет входной аудиосигнал a(t) на фоновый сигнал n(t) и сигнал c(t) переднего плана, фоновый сигнал вводится в каскад 602 обработки фона, и сигнал переднего плана вводится в каскад 604 обработки переднего плана, и после обработки, оба сигнала n'(t) и c'(t) комбинируются посредством модуля 606 комбинирования, чтобы в завершение получать обработанный сигнал a'(t).

Предпочтительно, на основе разделения/разложения сигналов для входного сигнала a(t) на отчетливо воспринимаемые хлопки c(t) и более шумоподобные фоновые сигналы n(t), реализуется отдельная обработка разложенных частей сигнала. После обработки, модифицированные сигналы c'(t) и n'(t) переднего плана и фона повторно синтезируются, что приводит к выходному сигналу a'(t).

Фиг. 1c иллюстрирует высокоуровневую схему предпочтительного каскада разделения аплодисментов. Модель аплодисментов приведена в уравнении 1 и проиллюстрирована на фиг. 1f, при этом сигнал A(k, n) аплодисментов состоит из наложения отчетливо и отдельно воспринимаемых хлопков C(k,n) на переднем плане и более шумоподобного фонового сигнала N(k,n). Сигналы рассматриваются в частотной области с высоким временным разрешением, тогда как k и n обозначают дискретные индексы частоты k и времени n короткого частотно-временного преобразования, соответственно.

В частности, система на фиг. 1c иллюстрирует DFT-процессор 110 в качестве генератора блоков, детектор переднего плана, имеющий функциональности анализатора 120 аудиосигналов и модуля 130 разделения по фиг. 1a или фиг. 1b, и дополнительные каскады модуля разделения сигналов, такие как модуль 152 взвешивания, выполняющий функциональность, поясненную относительно этапа 206 по фиг. 2, и вычитатель 154, реализующий функциональность, проиллюстрированную на этапе 210 по фиг. 2. Кроме того, предоставляется модуль компоновки сигналов, который компонует, из соответствующего представления в частотной области, сигнал c(t) переднего плана и фоновый сигнал n(t) временной области, при этом модуль компоновки сигналов содержит, для каждого компонента сигнала, DFT-блок 160a, 160b.

Входной сигнал a(t) аплодисментов, т.е. входной сигнал, содержащий фоновые компоненты и компоненты аплодисментов, подается в переключатель сигналов (не показан на фиг. 1c), а также в детектор 150 переднего плана, в котором, на основе характеристик сигналов, идентифицируются кадры, которые соответствуют хлопкам на переднем плане. Каскад 150 детектора выводит усиление gs(n) при разделении, которое подается в переключатель сигналов, и управляет величинами сигналов, маршрутизируемыми в отчетливо и отдельно воспринимаемый сигнал C(k,n) хлопков и более шумоподобный сигнал N(k,n). Переключатель сигналов проиллюстрирован в блоке 170 для иллюстрации двоичного переключателя, т.е. того, что определенный кадр или частотно-временной мозаичный фрагмент, т.е. только определенный элемент разрешения по частоте определенного кадра, маршрутизируется либо в C, либо в N, в соответствии со вторым аспектом. В соответствии с первым аспектом, усиление используется для разделения каждого кадра или нескольких элементов разрешения по частоте спектрального представления A(k, n) на компонент переднего плана и фоновый компонент таким образом, что в соответствии с усилением gs(n), которое основывается на соотношении между блочной характеристикой и средней характеристикой в соответствии с первым аспектом, полный кадр либо, по меньшей мере, один или более частотно-временных мозаичных фрагментов или элементов разрешения по частоте разделяются таким образом, что соответствующий элемент разрешения в каждом из сигналов C и N имеет идентичное значение, но с различной амплитудой, причем взаимосвязь амплитуд зависит от gs(n).

Фиг. 1d иллюстрирует более подробный вариант осуществления детектора 150 переднего плана, конкретно иллюстрирующий функциональности анализатора аудиосигналов. В варианте осуществления, анализатор аудиосигналов принимает спектральное представление, сформированное посредством генератора блоков, имеющего блок 110 DFT (дискретного преобразования Фурье) по фиг. 1c. Кроме того, анализатор аудиосигналов выполнен с возможностью выполнять фильтрацию верхних частот с определенной предварительно определенной частотой разделения в блоке 170. Затем анализатор 120 аудиосигналов фиг. 1a или 1b выполняет процедуру извлечения энергии в блоке 172. Процедура извлечения энергии приводит к мгновенной или текущей энергии Φinst(n) текущего блока и средней энергии Φavg(n).

Модуль 130 разделения сигналов на фиг. 1a или 1b затем определяет соотношение, как проиллюстрировано в 180, и дополнительно, определяет адаптивное или неадаптивное пороговое значение и выполняет соответствующую операцию 182 пороговой обработки.

Кроме того, когда операция адаптивной пороговой обработки в соответствии со вторым аспектом выполняется, то анализатор аудиосигналов дополнительно выполняет оценку изменчивости огибающей, как проиллюстрировано на этапе 174, и показатель v(n) изменчивости перенаправляется в модуль разделения и, в частности, в блок обработки адаптивной пороговой обработки 182, чтобы в завершение получать усиление gs(n), как описано ниже.

Блок-схема последовательности операций способа внутренних операций детектора сигналов переднего плана проиллюстрирована на фиг. 1d. Если только верхний тракт рассматривается, это соответствует случаю без адаптивной пороговой обработки, тогда как адаптивная пороговая обработка является возможной, если также учитывается нижний тракт. Сигнал, подаваемый в детектор сигналов переднего плана, фильтруется по верхним частотам, и его средняя

и мгновенная
энергия оценивается. Мгновенная энергия сигнала X(k, n) задается посредством
, где ∥ · ∥ обозначает векторную норму, и средняя энергия задается посредством:

,

где w(n) обозначает весовую оконную функцию, применяемую к оценкам мгновенной энергии с длиной окна

. В качестве индикатора касательно того, являются или нет отчетливые хлопки активными во входном сигнале, энергетическое соотношение
мгновенной и средней энергии используется согласно следующему:

В более простом случае без адаптивной пороговой обработки, для моментов времени, в которых энергетическое соотношение превышает пороговое значение

атаки, усиление при разделении, которое извлекает отчетливую часть хлопков из входного сигнала, задается равным 1; в силу этого шумоподобный сигнал является нулем в эти моменты времени. Блок-схема системы с жестким переключением сигналов проиллюстрирована на фиг. 1e. Если необходимо исключать выпадения сигнала в шумоподобном сигнале, корректировочный член может вычитаться из усиления. Хорошая начальная точка позволяет средней энергии входного сигнала оставаться в шумоподобном сигнале. Это осуществляется посредством вычитания
или
из усиления. Величина средней энергии также может управляться посредством введения усиления
, которое управляет тем, сколько из средней энергии остается в шумоподобном сигнале. Это приводит к общей форме усиления при разделении:

В дополнительном варианте осуществления, вышеприведенное уравнение заменяется посредством следующего уравнения:

Примечание: если

, величина сигнала, маршрутизируемого в отличительные хлопки, зависит только от энергетического соотношения
и фиксированного усиления
, обеспечивая в результате зависимое от сигнала мягкое решение. В хорошо настроенной системе, период времени, в который энергетическое соотношение превышает пороговые значения атаки, захватывает только фактическое переходное событие. В некоторых случаях, может быть желательным извлекать более длительный период временных кадров после того, как возникает атака. Это может осуществляться, например, посредством введения порогового значения
сброса, указывающего уровень, до которого энергетическое соотношение
должно снижаться после атаки до того, как усиление при разделении снова задается равным нулю:

В дополнительном варианте осуществления, непосредственно предшествующее уравнение заменяется посредством следующего уравнения:

Альтернатива, но более статический способ заключается в том, чтобы просто маршрутизировать определенное число кадров после обнаруженной атаки в отчетливый сигнал хлопков.

Чтобы повышать гибкость пороговой обработки, пороговые значения могут выбираться сигнально-адаптивным способом, который приводит к

и
, соответственно. Пороговые значения управляются посредством оценки изменчивости огибающей входного сигнала аплодисментов, при этом высокая изменчивость указывает присутствие отличительных и отдельно воспринимаемых хлопков, и достаточно низкая изменчивость указывает более шумоподобный и стационарный сигнал. Оценка изменчивости может осуществляться во временной области, а также в частотной области. Предпочтительный способ в этом случае должен заключаться а том, чтобы осуществлять оценку в частотной области:

,

где var (·) обозначает вычисление дисперсии. Чтобы обеспечивать в результате более стабильный сигнал, оцененная изменчивость сглаживается посредством фильтрации нижних частот, что обеспечивает в результате конечную оценку изменчивости огибающей:

,

где * обозначает свертку. Преобразование изменчивости огибающей в соответствующие пороговые значения может осуществляться посредством функций

и
преобразования таким образом, что:

В одном варианте осуществления, функция преобразования может быть реализована в качестве отсеченных линейных функций, что соответствует линейной интерполяции пороговых значений. Конфигурация для этого сценария проиллюстрирована на фиг. 4c. Кроме того, также в общем могут использоваться кубическая функция преобразования или функции с высшим порядком. В частности, седловые точки могут использоваться для того, чтобы задавать дополнительные пороговые уровни для значений изменчивости в промежутке между значениями, заданными для разреженных и плотных аплодисментов. Это примерно проиллюстрировано на фиг. 4c, правая сторона.

Разделенные сигналы получаются следующим образом:

Фиг. 1f иллюстрирует вышеописанные уравнения в общем представлении и относительно функциональных блоков на фиг. 1a и 1b.

Кроме того, фиг. 1f иллюстрирует ситуацию, в которой, в зависимости от конкретного варианта осуществления, применяется отсутствие порогового значения, одно пороговое значение или двойное пороговое значение.

Кроме того, как проиллюстрировано относительно уравнений (7)-(9) на фиг. 1f, могут использоваться адаптивные пороговые значения. Естественно, любое одно пороговое значение используется в качестве одного адаптивного порогового значения. В таком случае, только уравнение (8) является активным, и уравнение (9) не является активным. Тем не менее, предпочтительно выполнять двойную адаптивную пороговую обработку в определенном предпочтительном варианте осуществления, реализующем признаки первого аспекта и второго аспекта вместе.

Кроме того, фиг. 7 и 8 иллюстрируют дополнительные реализации касательно того, как можно реализовывать определенный вариант применения настоящего изобретения.

В частности, фиг. 7, левая часть, иллюстрирует модуль 700 измерений характеристик сигналов для измерения характеристики сигнала для сигнала фонового компонента или сигнала компонента переднего плана. В частности, модуль 700 измерений характеристик сигналов выполнен с возможностью определять плотность переднего плана в блоке 702, иллюстрирующем модуль вычисления плотности переднего плана с использованием сигнала компонента переднего плана, либо, альтернативно или дополнительно, модуль измерений характеристик сигналов выполнен с возможностью выполнять вычисление различимости переднего плана с использованием модуля 704 вычисления различимости переднего плана, который вычисляет долю части переднего плана относительно исходного входного сигнала a(t).

Альтернативно, как проиллюстрировано в правой части по фиг. 7, предусмотрены процессор 604 переднего плана и процессор 602 фона, причем эти процессоры, в отличие от фиг. 6, основываются на определенных метаданных Θ, которые могут представлять собой метаданные, извлекаемые посредством фиг. 7, левая часть, либо могут представлять собой любые другие полезные метаданные для выполнения обработки переднего плана и обработки фона.

Разделенные части сигнала аплодисментов могут подаваться в каскады измерения, в которых могут измеряться определенные (перцепционно обусловленные) характеристики переходных сигналов. На фиг. 7a проиллюстрирована примерная конфигурация для такого варианта использования, в котором оценивается плотность отчетливо и отдельно воспринимаемых хлопков на переднем плане, а также доля энергии хлопков на переднем плане относительно энергии полного сигнала.

Оценка плотности

переднего плана может осуществляться посредством подсчета частоты событий в секунду, т.е. числа обнаруженных хлопков в секунду. Различимость
переднего плана задается посредством энергетического соотношения оцененного сигнала C(n) хлопков на переднем плане и A(n):

На фиг. 7b проиллюстрирована блок-схема восстановления измеренных характеристик сигналов, на которой Θ и пунктирные линии обозначают вспомогательную информацию.

Хотя в предыдущем варианте осуществления, характеристика сигналов только измеряется, система используется для того, чтобы модифицировать характеристики сигналов. В одном варианте осуществления, обработка переднего плана может выводить сокращенное число обнаруженных хлопков на переднем плане, что приводит к модификации плотности до более низкой плотности результирующего выходного сигнала. В другом варианте осуществления, обработка переднего плана может выводить увеличенное число хлопков на переднем плане, например, посредством суммирования задержанной версии сигнала хлопков на переднем плане с собой, что приводит к модификации плотности к повышенной плотности. Кроме того, посредством применения весовых коэффициентов к соответствующим каскадам обработки, баланс хлопков на переднем плане и шумоподобного фона может модифицироваться. Дополнительно, любая обработка, такая как фильтрация, добавление реверберации, задержки и т.д. в обоих трактах может использоваться для того, чтобы модифицировать характеристики сигнала аплодисментов.

Кроме того, фиг. 8 относится к каскаду кодера для кодирования сигнала компонента переднего плана и сигнала фонового компонента, чтобы получать кодированное представление сигнала компонента переднего плана и отдельное кодированное представление сигнала фонового компонента для передачи или хранения. В частности, кодер переднего плана проиллюстрирован на 801, и кодер фона проиллюстрирован на 802. Отдельно кодированные представления 804 и 806 перенаправляются в устройство 808 на стороне декодера, состоящее из декодера 810 переднего плана и декодера 812 фона, которые в завершение декодируют отдельные представления и декодированные представления, и затем комбинируются посредством модуля 606 комбинирования, чтобы в завершение выводить декодированный сигнал a'(t).

Далее поясняются дополнительные предпочтительные варианты осуществления относительно фиг. 3. В частности, фиг. 3 иллюстрирует схематичное представление входного аудиосигнала, приведенное на временной шкале 300, при этом схематичное представление иллюстрирует ситуацию перекрывающихся во времени блоков. На фиг. 3 проиллюстрирована ситуация, когда существует диапазон 302 перекрытия в 50%. Также являются применимыми другие диапазоны перекрытия, такие как диапазоны с множественным перекрытием более чем с 50% или меньше диапазонов перекрытия, в которых перекрываются части только менее чем с 50%.

В варианте осуществления по фиг. 3, блок типично имеет меньше 600 значений дискретизации и, предпочтительно, только 256 или только 128 значений дискретизации, чтобы получать высокое временное разрешение.

Примерно проиллюстрированные перекрывающиеся блоки состоят, например, из текущего блока 304, который перекрывается в пределах диапазона перекрытия с предшествующим блоком 303 или следующим блоком 305. Таким образом, когда группа блоков содержит, по меньшей мере, два предшествующих блока, то эта группа блоков должна состоять из предшествующего блока 303 относительно текущего блока 304 и дополнительного предшествующего блока, указываемого с порядковым номером 3 на фиг. 3. Кроме того и аналогично, когда группа блоков содержит, по меньшей мере, два следующих блока (во времени), то два следующих блока должны содержать следующий блок 305, указываемый с порядковым номером 6, и дополнительный блок 7, проиллюстрированный с порядковым номером 7.

Эти блоки, например, формируются посредством генератора 110 блоков, который предпочтительно также выполняет временно-спектральное преобразование, такое как DFT, упомянутое выше, или FFT (быстрое преобразование Фурье).

Результат временно-спектрального преобразования представляет собой последовательность спектральных блоков I-VIII, при этом каждый спектральный блок, проиллюстрированный на фиг. 3 ниже блока 110, соответствует одному из восьми блоков временной шкалы 300.

Предпочтительно, разделение затем выполняется в частотной области, т.е. с использованием спектрального представления, в котором значения аудиосигналов являются спектральными значениями. После разделения, получаются спектральное представление переднего плана, также состоящее из блоков I-VIII, и представление фона, состоящее из I-VIII. Естественно и в зависимости от операции пороговой обработки, не обязательно имеет место то, что каждый блок представления переднего плана после разделения 130 имеет значения, отличающиеся от нуля. Тем не менее, предпочтительно, следует удостоверяться посредством, по меньшей мере, первого аспекта настоящего изобретения в том, что каждый блок в спектральном представлении фонового компонента имеет значения, отличающиеся от нуля, во избежание выпадения энергии в фоновом компоненте сигнала.

Для каждого компонента, т.е. компонента переднего плана и фонового компонента, спектрально-временное преобразование выполняется так, как поясняется в контексте фиг. 1c, и последующее постепенное затухание/постепенное нарастание относительно диапазона 302 перекрытия выполняется для обоих компонентов, как проиллюстрировано в блоке 161a и блоке 161b для компонентов переднего плана и фона, соответственно. Таким образом, в конечном счете, сигнал переднего плана и фоновый сигнал имеют идентичную длину L с исходным аудиосигналом перед разделением.

Предпочтительно, как проиллюстрировано на фиг. 4b, модуль 130 разделения, вычисляющий изменчивости или пороговые значения, сглаживается.

В частности, этап 400 иллюстрирует определение общей характеристики или соотношения между блочной характеристикой и средней характеристикой для текущего блока, как проиллюстрировано на 400.

В блоке 402, необработанная изменчивость вычисляется относительно текущего блока. В блоке 404, необработанные изменчивости для предшествования или следующих блоков вычисляются, чтобы получать, посредством вывода блока 402 и 404, последовательность необработанных изменчивостей. В блоке 406, последовательность сглаживается. Таким образом, в выводе блока 406 существует сглаженная последовательность изменчивостей. Изменчивости сглаженной последовательности преобразуются в соответствующие адаптивные пороговые значения, как проиллюстрировано на этапе 408, так что получается переменное пороговое значение для текущего блока.

На фиг. 4b проиллюстрирован альтернативный вариант осуществления, в котором, в отличие от сглаживания изменчивостей, сглаживаются пороговые значения. С этой целью, снова характеристика/соотношение для текущего блока определяется, как проиллюстрировано на этапе 400.

В блоке 403, последовательность изменчивостей вычисляется с использованием, например, уравнения 6 по фиг. 1f для каждого текущего блока, указываемого посредством целого числа m.

В блоке 405, последовательность изменчивостей преобразуется в последовательность необработанных пороговых значений в соответствии с уравнением 8 и уравнением 9, но с несглаженными изменчивостями, в отличие от уравнения 7 по фиг. 1f.

В блоке 407, последовательность необработанных пороговых значений сглаживается, чтобы в завершение получать (сглаженное) пороговое значение для текущего блока.

Далее подробнее поясняется фиг. 5, чтобы иллюстрировать различные способы для вычисления изменчивости характеристики в группе блоков.

Снова, на этапе 500, вычисляется характеристика или соотношение между текущей блочной характеристикой и средней блочной характеристикой.

На этапе 502, вычисляется среднее или, в общем, математическое ожидание для характеристик/соотношений для группы блоков.

В блоке 504, разности между характеристиками/соотношениями и средним значением/математически ожидаемым значением вычисляются, и как проиллюстрировано на этапе 506, суммирование разностей или определенных значений, извлеченных из разностей, выполняется предпочтительно с нормализацией. Когда квадраты разности суммируются, то последовательность этапов 502, 504, 506 отражает вычисление дисперсии, приведенное относительно уравнения 6. Тем не менее, например, когда абсолютные величины разностей или другие степени разностей, отличающихся от двух, суммируются между собой, то различное статистическое значение, извлеченное из разностей между характеристиками и средним/математически ожидаемым значением, используется в качестве изменчивости.

Тем не менее, альтернативно, как проиллюстрировано на этапе 508, также разности между следующими друг за другом во времени характеристиками/соотношениями для смежных блоков вычисляются и используются в качестве показателя изменчивости. Таким образом, блок 508 определяет изменчивость, которая не основывается на среднем значении, но которая основывается на изменении между блоками, при этом, как проиллюстрировано на фиг. 6, разности между характеристиками для смежных блоков могут суммироваться между собой как квадраты, как абсолютные величины или как их степени, чтобы в завершение получать другое значение из изменчивости, отличающейся от дисперсии. Специалистам в данной области техники должно быть очевидным, что также могут использоваться другие показатели изменчивости, отличающиеся от того, что пояснено относительно фиг. 5,.

Далее задаются примеры вариантов осуществления, которые могут использоваться отдельно от нижеприведенных примеров или в комбинации с любыми из нижеприведенных примеров:

1. Устройство для разложения аудиосигнала (100) на сигнал (140) фонового компонента и сигнал (150) компонента переднего плана, причем устройство содержит:

- генератор (110) блоков для формирования временной последовательности блоков значений аудиосигналов;

- анализатор (120) аудиосигналов для определения блочной характеристики текущего блока аудиосигнала и для определения средней характеристики для группы блоков, причем группа блоков содержит, по меньшей мере, два блока; и

- модуль (130) разделения для разделения текущего блока на фоновую часть и часть переднего плана в ответ на соотношение блочной характеристики текущего блока и средней характеристики группы блоков,

- при этом сигнал (140) фонового компонента содержит фоновую часть текущего блока, и сигнал (150) компонента переднего плана содержит часть переднего плана текущего блока.

2. Устройство по примеру 1,

- в котором анализатор аудиосигналов выполнен с возможностью анализа связанного с амплитудой показателя в качестве характеристики текущего блока и связанной с амплитудой характеристики в качестве средней характеристики для группы блоков.

3. Устройство по примеру 1 или 2,

- в котором анализатор (120) аудиосигналов выполнен с возможностью анализа показателя мощности или показателя энергии для текущего блока и показателя средней мощности или показателя средней энергии для группы блоков.

4. Устройство по одному из предшествующих примеров,

- в котором модуль (130) разделения выполнен с возможностью вычислять усиление при разделении из упомянутого соотношения, взвешивать значения аудиосигналов текущего блока с использованием усиления при разделении, чтобы получать часть переднего плана текущего кадра, и определять фоновый компонент таким образом, что фоновый сигнал составляет оставшийся сигнал, или

- в котором модуль разделения выполнен с возможностью вычислять усиление при разделении из упомянутого соотношения, взвешивать значения аудиосигналов текущего блока с использованием усиления при разделении, чтобы получать фоновую часть текущего кадра, и определять компонент переднего плана таким образом, что сигнал компонента переднего плана составляет оставшийся сигнал.

5. Устройство по одному из предшествующих примеров,

- в котором модуль (130) разделения выполнен с возможностью вычислять усиление при разделении с использованием взвешивания упомянутого соотношения с использованием предварительно определенного весового коэффициента, отличающегося от нуля.

6. Устройство по примеру 5,

- в котором модуль (130) разделения выполнен с возможностью вычислять усиление при разделении с использованием члена 1-(gN/ψ(n)p или (max(1-(gN/ψ(n)))p, где gN является предварительно определенным коэффициентом, ψ(n) является упомянутым соотношением, и p является степенью, большей нуля, и является целым числом или нецелым числом, и где n является индексом блока, и где max является функцией максимума.

7. Устройство по одному из предшествующих примеров,

- в котором модуль (130) разделения выполнен с возможностью сравнивать соотношение текущего блока с пороговым значением и разделять текущий блок, когда соотношение текущего блока находится в предварительно определенной взаимосвязи с пороговым значением, и при этом модуль (130) разделения выполнен с возможностью не разделять дополнительный блок, причем упомянутый дополнительный блок имеет соотношение, не имеющее предварительно определенную взаимосвязь с пороговым значением, так что упомянутый дополнительный блок полностью принадлежит сигналу (140) фонового компонента.

8. Устройство по примеру 7,

- в котором модуль (130) разделения выполнен с возможностью разделять следующий блок после текущего блока во времени с использованием сравнения соотношения следующего блока с пороговым значением дополнительного сброса,

- при этом пороговое значение дополнительного сброса задается таким образом, что соотношение блоков, которое не находится в предварительно определенной взаимосвязи с пороговым значением, находится в предварительно определенной взаимосвязи с пороговым значением дополнительного сброса.

9. Устройство по примеру 8,

- в котором предварительно определенная взаимосвязь составляет "больше, чем", и при этом пороговое значение сброса ниже порогового значения разделения, или

- в котором предварительно определенная взаимосвязь составляет "ниже, чем", и при этом пороговое значение сброса превышает пороговое значение разделения.

10. Устройство по одному из предшествующих примеров,

- в котором генератор (110) блоков выполнен с возможностью определять перекрывающиеся во времени блоки значений аудиосигналов, или

- в котором перекрывающиеся во времени блоки имеют число значений дискретизации, меньшее чем или равное 600.

11. Устройство по одному из предшествующих примеров,

- в котором генератор блоков выполнен с возможностью выполнять поблочное преобразование аудиосигнала временной области в частотную область, чтобы получать спектральное представление для каждого блока,

- в котором анализатор аудиосигналов выполнен с возможностью вычислять упомянутую характеристику с использованием спектрального представления текущего блока, и

- в котором модуль (130) разделения выполнен с возможностью разделять спектральное представление на фоновую часть и часть переднего плана таким образом, что для спектральных элементов разрешения фоновой части и части переднего плана, соответствующих идентичной частоте, каждый из них имеет спектральное значение, отличающееся от нуля, при этом взаимосвязь спектрального значения части переднего плана и спектрального значения фоновой части в идентичном элементе разрешения по частоте зависит от упомянутого соотношения.

12. Устройство по одному из предшествующих примеров,

- в котором генератор (110) блоков выполнен с возможностью выполнять поблочное преобразование временной области в частотную область, чтобы получать спектральное представление для каждого блока,

- при этом смежные во времени блоки перекрываются в перекрывающемся диапазоне (302),

- при этом устройство дополнительно содержит модуль (160a, 161a, 160b, 161b) компоновки сигналов для компоновки сигнала фонового компонента и для компоновки сигнала компонента переднего плана, при этом модуль компоновки сигналов выполнен с возможностью выполнения частотно-временного преобразования (161a, 160a, 160b) для сигнала фонового компонента и для сигнала компонента переднего плана, и для плавно переходящих (161a, 161b) временных представлений смежных во времени блоков в пределах перекрывающегося диапазона, чтобы получать сигнал компонента переднего плана временной области и отдельный сигнал фонового компонента временной области.

13. Устройство по одному из предшествующих примеров,

- в котором анализатор (120) аудиосигналов выполнен с возможностью определять среднюю характеристику для группы блоков с использованием взвешенного суммирования отдельных характеристик блоков в группе блоков.

14. Устройство по одному из предшествующих примеров,

- в котором анализатор (120) аудиосигналов выполнен с возможностью выполнять взвешенное суммирование отдельных характеристик блоков в группе блоков, при этом весовое значение для характеристики близкого во времени к текущему блоку блока превышает весовое значение для характеристики менее близкого во времени к текущему блоку дополнительного блока.

15. Устройство по примеру 13 или 14,

- в котором анализатор (120) аудиосигналов выполнен с возможностью определять группу блоков таким образом, что группа блоков содержит, по меньшей мере, двадцать блоков перед соответствующим блоком или, по меньшей мере, двадцать блоками после текущего блока.

16. Устройство по одному из предшествующих примеров,

- в котором анализатор аудиосигналов выполнен с возможностью использовать значение нормализации в зависимости от числа блоков в группе блоков или в зависимости от весовых значений для блоков в группе блоков.

17. Устройство по одному из предшествующих примеров,

- дополнительно содержащее модуль (702, 704) измерений характеристик сигналов для измерения характеристики сигналов, по меньшей мере, одного из сигналов фонового компонента или сигналов компонента переднего плана.

18. Устройство по примеру 17,

- в котором модуль измерений характеристик сигналов выполнен с возможностью определять плотность (702) переднего плана с использованием сигнала компонента переднего плана или определять различимость (704) переднего плана с использованием сигнала компонента переднего плана и входного аудиосигнала.

19. Устройство по одному из предшествующих примеров,

- в котором сигнал компонента переднего плана содержит сигналы хлопков, при этом устройство дополнительно содержит модуль модификации характеристики сигналов для модификации сигнала компонента переднего плана посредством увеличения числа хлопков или сокращения числа хлопков либо посредством применения весового коэффициента к сигналу компонента переднего плана или сигналу фонового компонента, чтобы модифицировать энергетическое соотношение между сигналом хлопков на переднем плане и сигналом фонового компонента, представляющим собой шумоподобный сигнал.

20. Устройство по одному из предшествующих примеров,

- дополнительно содержащее повышающий вслепую микшер для повышающего микширования аудиосигнала в представление, имеющее число выходных каналов, превышающих число каналов аудиосигнала,

- при этом повышающий микшер выполнен с возможностью пространственно распределять сигнал компонента переднего плана в выходные каналы, при этом сигнал компонента переднего плана в упомянутом числе выходных каналов коррелируется, и спектрально распределять сигнал фонового компонента в выходные каналы, при этом сигналы фонового компонента в выходных каналах в меньшей степени коррелируются, чем сигналы компонента переднего плана, либо декоррелируются по отношению друг к другу.

21. Устройство по одному из предшествующих примеров,

- дополнительно содержащее каскад (801, 802) кодера для отдельного кодирования сигнала компонента переднего плана и сигнала фонового компонента, чтобы получать кодированное представление (804) сигнала компонента переднего плана и отдельное кодированное представление сигнала (806) фонового компонента для передачи или хранения либо декодирования.

22. Способ разложения аудиосигнала (100) на сигнал (140) фонового компонента и сигнал (150) компонента переднего плана, при этом способ содержит:

- формирование (110) временной последовательности блоков значений аудиосигналов;

- определение (120) блочной характеристики текущего блока аудиосигнала и определение средней характеристики для группы блоков, причем группа блоков содержит, по меньшей мере, два блока; и

- разделение (130) текущего блока на фоновую часть и часть переднего плана в ответ на соотношение блочной характеристики текущего блока и средней характеристики группы блоков,

- при этом сигнал (140) фонового компонента содержит фоновую часть текущего блока, и сигнал (150) компонента переднего плана содержит часть переднего плана текущего блока.

Далее описываются дополнительные примеры, которые могут использоваться отдельно от вышеприведенных примеров или в комбинации с любыми из вышеприведенных примеров.

1. Устройство для разложения аудиосигнала на сигнал фонового компонента и сигнал компонента переднего плана, причем устройство содержит:

- генератор (110) блоков для формирования временной последовательности блоков значений аудиосигналов;

- анализатор (120) аудиосигналов для определения характеристики текущего блока аудиосигнала и для определения изменчивости характеристики в группе блоков, содержащей, по меньшей мере, два блока из упомянутой последовательности блоков; и

- модуль (130) разделения для разделения текущего блока на фоновую часть (140) и часть (150) переднего плана, при этом модуль (130) разделения выполнен с возможностью определять (182) пороговое значение разделения на основе упомянутой изменчивости и разделять текущий блок на сигнал (140) фонового компонента и сигнал (150) компонента переднего плана, когда характеристика текущего блока находится в предварительно определенной взаимосвязи с пороговым значением разделения, или определять полный текущий блок в качестве сигнала компонента переднего плана, когда характеристика текущего блока находится в предварительно определенной взаимосвязи с пороговым значением разделения, или определять полный текущий блок в качестве сигнала фонового компонента, когда характеристика текущего блока не находится в предварительно определенной взаимосвязи с пороговым значением разделения.

2. Устройство по примеру 1,

- в котором модуль (130) разделения выполнен с возможностью определять первое пороговое значение (401) разделения для первой изменчивости (501) и второе пороговое значение (402) разделения для второй изменчивости (502),

- при этом первое пороговое значение (401) разделения ниже второго порогового значения (402) разделения, и первая изменчивость (501) ниже второй изменчивости (502), и при этом предварительно определенная взаимосвязь больше, или

- при этом первое пороговое значение разделения превышает второе пороговое значение разделения, при этом первая изменчивость ниже второй изменчивости, и при этом предварительно определенная взаимосвязь ниже.

3. Устройство по примеру 1 или 2,

- в котором модуль (130) разделения выполнен с возможностью определять пороговое значение разделения с использованием табличного доступа или с использованием монотонной интерполяционной функции, интерполирующей между первым пороговым значением (401) разделения и вторым пороговым значением (402) разделения таким образом, что для третьей изменчивости (503), получается третье пороговое значение (403) разделения, а для четвертой изменчивости (504), получается четвертое пороговое значение (404) разделения, при этом первое пороговое значение (401) разделения ассоциировано с первой изменчивостью (501), и второе пороговое значение (402) разделения ассоциировано со второй изменчивостью (502),

- при этом третья изменчивость (503) и четвертая изменчивость расположены, относительно их значений, между первой изменчивостью (501) и второй изменчивостью (502), и при этом третье пороговое значение (403) разделения и четвертое пороговое значение (404) разделения расположены, относительно их значений, между первым пороговым значением (401) разделения и вторым пороговым значением (402) разделения.

4. Устройство по примеру 3,

- в котором монотонная интерполяционная функция представляет собой линейную функцию или квадратическую функцию, или кубическую функцию, или степенную функцию с порядком, большим, чем 3.

5. Устройство по одному из примеров 1-4,

- в котором модуль (130) разделения выполнен с возможностью определять, на основе изменчивости характеристики относительно текущего блока, необработанное пороговое значение (405) разделения, и на основе изменчивости, по меньшей мере, одного предыдущего или следующего блока, по меньшей мере, одно дополнительное необработанное пороговое значение (405) разделения и определять (407) пороговое значение разделения для текущего блока посредством сглаживания последовательности необработанных пороговых значений разделения, причем последовательность содержит необработанное пороговое значение разделения и, по меньшей мере, одно дополнительное необработанное пороговое значение разделения, или

- в котором модуль (130) разделения выполнен с возможностью определять необработанную изменчивость (402) характеристики для текущего блока и, дополнительно, вычислять (404) необработанную изменчивость для предыдущего или следующего блока, и при этом модуль (130) разделения выполнен с возможностью сглаживания последовательности необработанных изменчивостей, содержащих необработанную изменчивость для текущего блока и, по меньшей мере, одну дополнительную необработанную изменчивость для предыдущего или следующего блока, чтобы получать сглаженную последовательность изменчивостей и определять пороговые значения разделения на основе сглаженной изменчивости текущего блока.

6. Устройство по одному из предшествующих примеров,

- в котором анализатор (120) аудиосигналов выполнен с возможностью определять изменчивость посредством вычисления характеристики каждого блока в группе блоков, чтобы получать группу характеристик, и посредством вычисления дисперсии группы характеристик, при этом изменчивость соответствует дисперсии или зависит от дисперсии группы характеристик.

7. Устройство по одному из предшествующих примеров,

- в котором анализатор (120) аудиосигналов выполнен с возможностью вычислять изменчивость с использованием средней или ожидаемой характеристики (502) и разностей (504) между характеристиками в группе характеристик и средней или ожидаемой характеристики, или

- посредством вычисления изменчивости с использованием разностей (508) между характеристиками группы характеристик, следующих друг за другом во времени.

8. Устройство по одному из предшествующих примеров,

- в котором анализатор (120) аудиосигналов выполнен с возможностью вычислять изменчивость характеристики в группе характеристик, содержащей, по меньшей мере, два блока, предшествующих текущему блоку, или, по меньшей мере, два блока после текущего блока.

9. Устройство по одному из предшествующих примеров,

- в котором анализатор (120) аудиосигналов выполнен с возможностью вычислять изменчивость характеристики в группе блоков, состоящей, по меньшей мере, из тридцати блоков.

10. Устройство по одному из предшествующих примеров,

- в котором анализатор (120) аудиосигналов выполнен с возможностью вычислять упомянутую характеристику в качестве соотношения блочной характеристики текущего блока и средней характеристики для группы блоков, содержащей, по меньшей мере, два блока, и

- в котором модуль (130) разделения выполнен с возможностью сравнивать соотношение с пороговым значением разделения, определенным на основе изменчивости соотношения, ассоциированного с текущим блоком в группе блоков.

11. Устройство по примеру 10,

- в котором анализатор (120) аудиосигналов выполнен с возможностью использовать, для вычисления средней характеристики и для вычисления изменчивости, идентичную группу блоков.

12. Устройство по одному из предыдущих примеров, в котором анализатор аудиосигналов выполнен с возможностью анализа связанного с амплитудой показателя в качестве характеристики текущего блока и связанной с амплитудой характеристики в качестве средней характеристики для группы блоков.

13. Устройство по одному из предшествующих примеров,

- в котором модуль (130) разделения выполнен с возможностью вычислять усиление при разделении из упомянутой характеристики, взвешивать значения аудиосигналов текущего блока с использованием усиления при разделении, чтобы получать часть переднего плана текущего кадра, и определять фоновый компонент таким образом, что фоновый сигнал составляет оставшийся сигнал, или

- в котором модуль разделения выполнен с возможностью вычислять усиление при разделении из упомянутой характеристики, взвешивать значения аудиосигналов текущего блока с использованием усиления при разделении, чтобы получать фоновую часть текущего кадра, и определять компонент переднего плана таким образом, что сигнал компонента переднего плана составляет оставшийся сигнал.

14. Устройство по одному из предшествующих примеров,

- в котором модуль (130) разделения выполнен с возможностью разделять следующий блок после текущего блока во времени с использованием сравнения характеристики следующего блока с пороговым значением дополнительного сброса,

- при этом пороговое значение дополнительного сброса задается таким образом, что характеристика, которая не находится в предварительно определенной взаимосвязи с пороговым значением, находится в предварительно определенной взаимосвязи с пороговым значением дополнительного сброса.

15. Устройство по примеру 14,

- в котором модуль (130) разделения выполнен с возможностью определять пороговое значение сброса на основе упомянутой изменчивости и разделять следующий блок, когда характеристика текущего блока находится в дополнительной предварительно определенной взаимосвязи с пороговым значением сброса.

16. Устройство по примеру 14 или 15,

- в котором предварительно определенная взаимосвязь составляет "больше, чем", и при этом пороговое значение сброса ниже порогового значения разделения, или

- в котором предварительно определенная взаимосвязь составляет "ниже, чем", и при этом пороговое значение сброса превышает пороговое значение разделения.

17. Устройство по одному из предшествующих примеров,

- в котором генератор (110) блоков выполнен с возможностью определять перекрывающиеся во времени блоки значений аудиосигналов, или

- в котором перекрывающиеся во времени блоки имеют число значений дискретизации, меньшее чем или равное 600.

18. Устройство по одному из предшествующих примеров,

- в котором генератор блоков выполнен с возможностью выполнять поблочное преобразование аудиосигнала временной области в частотную область, чтобы получать спектральное представление для каждого блока,

- в котором анализатор аудиосигналов выполнен с возможностью вычислять упомянутую характеристику с использованием спектрального представления текущего блока, и

- в котором модуль (130) разделения выполнен с возможностью разделять спектральное представление на фоновую часть и часть переднего плана таким образом, что для спектральных элементов разрешения фоновой части и части переднего плана, соответствующих идентичной частоте, каждый из них имеет спектральное значение, отличающееся от нуля, при этом взаимосвязь спектрального значения части переднего плана и спектрального значения фоновой части в идентичном элементе разрешения по частоте зависит от упомянутой характеристики.

19. Устройство по одному из предшествующих примеров,

- в котором анализатор (120) аудиосигналов выполнен с возможностью вычислять упомянутую характеристику с использованием спектрального представления текущего блока, чтобы вычислять изменчивость для текущего блока с использованием спектрального представления группы блоков.

20. Способ для разложения аудиосигнала на сигнал фонового компонента и сигнал компонента переднего плана, при этом способ содержит:

- формирование (110) временной последовательности блоков значений аудиосигналов;

- определение (120) характеристики текущего блока аудиосигнала и определение изменчивости характеристики в группе блоков, содержащей, по меньшей мере, два блока из упомянутой последовательности блоков; и

- разделение (130) текущего блока на фоновую часть (140) и часть (150) переднего плана, при этом пороговое значение разделения определяется на основе упомянутой изменчивости, и при этом текущий блок разделяется на сигнал (140) фонового компонента и сигнал (150) компонента переднего плана, когда характеристика текущего блока находится в предварительно определенной взаимосвязи с пороговым значением разделения, или при этом полный текущий блок определяется в качестве сигнала компонента переднего плана, когда характеристика текущего блока находится в предварительно определенной взаимосвязи с пороговым значением разделения, или при этом определяют то, что полный текущий блок определяется в качестве сигнала фонового компонента, когда характеристика текущего блока не находится в предварительно определенной взаимосвязи с пороговым значением разделения.

Изобретательно кодированный аудиосигнал может сохраняться на цифровом носителе хранения данных или энергонезависимом носителе хранения данных или может передаваться по передающей среде, такой как беспроводная среда передачи или проводная среда передачи, к примеру, Интернет.

Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронночитаемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.

В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может сохраняться на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе или на энергонезависимом носителе хранения данных.

Другими словами, вариант осуществления изобретаемого способа в силу этого представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.

Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе.

Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного устройства.

Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.

Реферат

Изобретение относится к средствам для обработки аудио. Технический результат заключается в повышении эффективности аудиообработки. Формируют временную последовательность блоков значений аудиосигналов. Определяют характеристику текущего блока аудиосигнала и определяют изменчивость характеристики в группе блоков, содержащей по меньшей мере два блока из упомянутой последовательности блоков. Разделяют текущий блок на фоновую часть и часть переднего плана. При этом пороговое значение разделения определяется на основе упомянутой изменчивости. При этом текущий блок разделяется на сигнал фонового компонента и сигнал компонента переднего плана, когда характеристика текущего блока находится в предварительно определенной взаимосвязи с пороговым значением разделения. Или при этом полный текущий блок определяется в качестве сигнала компонента переднего плана, когда характеристика текущего блока находится в предварительно определенной взаимосвязи с пороговым значением разделения. Или при этом определяют то, что полный текущий блок определяется в качестве сигнала фонового компонента, когда характеристика текущего блока не находится в предварительно определенной взаимосвязи с пороговым значением разделения. 3 н. и 18 з.п. ф-лы, 15 ил.

Формула

1. Устройство для разложения аудиосигнала на сигнал фонового компонента и сигнал компонента переднего плана, причем упомянутое устройство содержит:
генератор (110) блоков для формирования временной последовательности блоков значений аудиосигналов;
анализатор (120) аудиосигналов для определения характеристики текущего блока аудиосигнала и для определения изменчивости характеристики в группе блоков, содержащей по меньшей мере два блока из упомянутой последовательности блоков; и
модуль (130) разделения для разделения текущего блока на фоновую часть (140) и часть (150) переднего плана, при этом модуль (130) разделения выполнен с возможностью определять (182) пороговое значение разделения на основе упомянутой изменчивости и разделять текущий блок на сигнал (140) фонового компонента и сигнал (150) компонента переднего плана, когда характеристика текущего блока находится в предварительно определенной взаимосвязи с пороговым значением разделения, или определять полный текущий блок в качестве сигнала компонента переднего плана, когда характеристика текущего блока находится в предварительно определенной взаимосвязи с пороговым значением разделения, или определять полный текущий блок в качестве сигнала фонового компонента, когда характеристика текущего блока не находится в предварительно определенной взаимосвязи с пороговым значением разделения.
2. Устройство по п. 1,
в котором модуль (130) разделения выполнен с возможностью определять первое пороговое значение (401) разделения для первой изменчивости (501) и второе пороговое значение (402) разделения для второй изменчивости (502),
при этом первое пороговое значение (401) разделения ниже второго порогового значения (402) разделения, и первая изменчивость (501) ниже второй изменчивости (502), и при этом предварительно определенная взаимосвязь с пороговым значением разделения превышает пороговое значение разделения, или
при этом первое пороговое значение разделения превышает второе пороговое значение разделения, при этом первая изменчивость ниже второй изменчивости, и при этом предварительно определенная взаимосвязь с пороговым значением разделения ниже порогового значения разделения.
3. Устройство по п. 1 или 2,
в котором модуль (130) разделения выполнен с возможностью определять пороговое значение разделения с использованием табличного доступа или с использованием монотонной интерполяционной функции, интерполирующей между первым пороговым значением (401) разделения и вторым пороговым значением (402) разделения таким образом, что для третьей изменчивости (503) получается третье пороговое значение (403) разделения, а для четвертой изменчивости (504) получается четвертое пороговое значение (404) разделения, при этом первое пороговое значение (401) разделения ассоциировано с первой изменчивостью (501), и второе пороговое значение (402) разделения ассоциировано со второй изменчивостью (502),
при этом третья изменчивость (503) и четвертая изменчивость расположены относительно их значений между первой изменчивостью (501) и второй изменчивостью (502), и при этом третье пороговое значение (403) разделения и четвертое пороговое значение (404) разделения расположены относительно их значений между первым пороговым значением (401) разделения и вторым пороговым значением (402) разделения.
4. Устройство по п. 3,
в котором монотонная интерполяционная функция представляет собой линейную функцию или квадратическую функцию, или кубическую функцию, или степенную функцию с порядком, большим чем 3.
5. Устройство по одному из пп. 1-4,
в котором модуль (130) разделения выполнен с возможностью определять на основе изменчивости характеристики относительно текущего блока необработанное пороговое значение (405) разделения и на основе изменчивости по меньшей мере одного предыдущего или следующего блока по меньшей мере одно дополнительное необработанное пороговое значение (405) разделения и определять (407) пороговое значение разделения для текущего блока посредством сглаживания последовательности необработанных пороговых значений разделения, причем упомянутая последовательность содержит необработанное пороговое значение разделения и по меньшей мере одно дополнительное необработанное пороговое значение разделения, или
в котором модуль (130) разделения выполнен с возможностью определять необработанную изменчивость (402) характеристики для текущего блока и дополнительно вычислять (404) необработанную изменчивость для предыдущего или следующего блока, и при этом модуль (130) разделения выполнен с возможностью сглаживания последовательности необработанных изменчивостей, содержащих необработанную изменчивость для текущего блока и по меньшей мере одну дополнительную необработанную изменчивость для предыдущего или следующего блока, чтобы получать сглаженную последовательность изменчивостей и определять пороговые значения разделения на основе сглаженной изменчивости текущего блока.
6. Устройство по одному из предшествующих пунктов,
в котором анализатор (120) аудиосигналов выполнен с возможностью определять изменчивость посредством вычисления характеристики каждого блока в группе блоков, чтобы получать группу характеристик, и посредством вычисления дисперсии группы характеристик, при этом изменчивость соответствует дисперсии или зависит от дисперсии группы характеристик.
7. Устройство по одному из предшествующих пунктов,
в котором анализатор (120) аудиосигналов выполнен с возможностью вычислять изменчивость с использованием средней или ожидаемой характеристики (502) и разностей (504) между характеристиками в группе характеристик и средней или ожидаемой характеристики, или
посредством вычисления изменчивости с использованием разностей (508) между характеристиками группы характеристик, следующих друг за другом во времени.
8. Устройство по одному из предшествующих пунктов,
в котором анализатор (120) аудиосигналов выполнен с возможностью вычислять изменчивость характеристики в группе характеристик, содержащей по меньшей мере два блока, предшествующих текущему блоку, или по меньшей мере два блока после текущего блока.
9. Устройство по одному из предшествующих пунктов,
в котором анализатор (120) аудиосигналов выполнен с возможностью вычислять изменчивость характеристики в группе блоков, состоящей из по меньшей мере тридцати блоков.
10. Устройство по одному из предшествующих пунктов,
в котором анализатор (120) аудиосигналов выполнен с возможностью вычислять характеристику в качестве соотношения блочной характеристики текущего блока и средней характеристики для группы блоков, содержащей по меньшей мере два блока, и
в котором модуль (130) разделения выполнен с возможностью сравнивать соотношение с пороговым значением разделения, определенным на основе изменчивости соотношения, ассоциированного с текущим блоком в группе блоков.
11. Устройство по п. 10,
в котором анализатор (120) аудиосигналов выполнен с возможностью использовать для вычисления средней характеристики и для вычисления изменчивости идентичную группу блоков.
12. Устройство по одному из предшествующих пунктов, в котором анализатор аудиосигналов выполнен с возможностью анализа связанного с амплитудой показателя в качестве характеристики текущего блока и связанной с амплитудой характеристики в качестве средней характеристики для группы блоков.
13. Устройство по одному из предшествующих пунктов,
в котором модуль (130) разделения выполнен с возможностью вычислять усиление при разделении из упомянутой характеристики, взвешивать значения аудиосигналов текущего блока с использованием усиления при разделении, чтобы получать часть переднего плана текущего кадра, и определять фоновый компонент таким образом, что фоновый сигнал составляет оставшийся сигнал, или
в котором модуль разделения выполнен с возможностью вычислять усиление при разделении из упомянутой характеристики, взвешивать значения аудиосигналов текущего блока с использованием усиления при разделении, чтобы получать фоновую часть текущего кадра, и определять компонент переднего плана таким образом, что сигнал компонента переднего плана составляет оставшийся сигнал.
14. Устройство по одному из предшествующих пунктов,
в котором модуль (130) разделения выполнен с возможностью разделять следующий блок после текущего блока во времени с использованием сравнения характеристики следующего блока с пороговым значением дополнительного сброса,
при этом пороговое значение дополнительного сброса задается таким образом, что характеристика, которая не находится в предварительно определенной взаимосвязи с пороговым значением, находится в предварительно определенной взаимосвязи с пороговым значением дополнительного сброса.
15. Устройство по п. 14,
в котором модуль (130) разделения выполнен с возможностью определять пороговое значение сброса на основе упомянутой изменчивости и разделять следующий блок, когда характеристика текущего блока находится в дополнительной предварительно определенной взаимосвязи с пороговым значением сброса.
16. Устройство по п. 14 или 15,
в котором предварительно определенная взаимосвязь составляет "больше, чем", и при этом пороговое значение сброса ниже порогового значения разделения, или
в котором предварительно определенная взаимосвязь составляет "ниже, чем", и при этом соотношение пороговых значений сброса превышает пороговое значение разделения.
17. Устройство по одному из предшествующих пунктов,
в котором генератор (110) блоков выполнен с возможностью определять перекрывающиеся во времени блоки значений аудиосигналов, или
в котором перекрывающиеся во времени блоки имеют число значений дискретизации, меньшее чем или равное 600.
18. Устройство по одному из предшествующих пунктов,
в котором генератор блоков выполнен с возможностью выполнять поблочное преобразование аудиосигнала временной области в частотную область, чтобы получать спектральное представление для каждого блока,
в котором анализатор аудиосигналов выполнен с возможностью вычислять характеристику с использованием спектрального представления текущего блока, и
в котором модуль (130) разделения выполнен с возможностью разделять спектральное представление на фоновую часть и часть переднего плана таким образом, что для спектральных элементов разрешения фоновой части и части переднего плана, соответствующих идентичной частоте, каждый из них имеет спектральное значение, отличающееся от нуля, при этом взаимосвязь спектрального значения части переднего плана и спектрального значения фоновой части в идентичном элементе разрешения по частоте зависит от упомянутой характеристики.
19. Устройство по одному из предшествующих пунктов,
в котором анализатор (120) аудиосигналов выполнен с возможностью вычислять характеристику с использованием спектрального представления текущего блока, чтобы вычислять изменчивость для текущего блока с использованием спектрального представления группы блоков.
20. Способ разложения аудиосигнала на сигнал фонового компонента и сигнал компонента переднего плана, при этом упомянутый способ содержит этапы, на которых:
формируют (110) временную последовательность блоков значений аудиосигналов;
определяют (120) характеристику текущего блока аудиосигнала и определяют изменчивость характеристики в группе блоков, содержащей по меньшей мере два блока из упомянутой последовательности блоков; и
разделяют (130) текущий блок на фоновую часть (140) и часть (150) переднего плана, при этом пороговое значение разделения определяется на основе упомянутой изменчивости, и при этом текущий блок разделяется на сигнал (140) фонового компонента и сигнал (150) компонента переднего плана, когда характеристика текущего блока находится в предварительно определенной взаимосвязи с пороговым значением разделения, или при этом полный текущий блок определяется в качестве сигнала компонента переднего плана, когда характеристика текущего блока находится в предварительно определенной взаимосвязи с пороговым значением разделения, или при этом определяют то, что полный текущий блок определяется в качестве сигнала фонового компонента, когда характеристика текущего блока не находится в предварительно определенной взаимосвязи с пороговым значением разделения.
21. Носитель данных, содержащий сохраненную на нем компьютерную программу для осуществления, при выполнении на компьютере или процессоре, способа по п. 20.

Авторы

Патентообладатели

Заявители

СПК: G10L21/0208 G10L21/0272 G10L21/028

Публикация: 2020-10-14

Дата подачи заявки: 2017-11-16

0
0
0
0
Невозможно загрузить содержимое всплывающей подсказки.
Поиск по товарам