Устройство и способ для обработки аудиосигнала - RU2725017C1

Код документа: RU2725017C1

Чертежи

Показать все 15 чертежа(ей)

Описание

Настоящее изобретение в целом относится к обработке аудиосигнала. В частности, настоящее изобретение относится к методике и способу автоматического управления уровнями речи и шума в аудиосигнале.

Уровень техники

На фиг. 13 проиллюстрирован сценарий полнодуплексной речевой связи, в котором голос диктора на ближнем конце захватывается одним или более микрофонами и передается диктору на дальнем конце, слушающему захваченный звук через громкоговорители или наушники. Чтобы улучшить комфорт прослушивания и разборчивость для слушателя на дальнем конце, могут быть применены некоторые методики обработки аудиосигнала для удаления или по меньшей мере ослабления нежелательных звуковых компонентов, включающих в себя акустическое эхо или фон и шум датчика, при сохранности голоса диктора на ближнем конце. Другой важный аспект для улучшения комфорта прослушивания и разборчивости состоит в том, чтобы регулировать уровень улучшенного сигнала до комфортного уровня для слушателя на дальнем конце. Это может обеспечить согласованный уровень речи независимо от чувствительности устройства захвата звука и независимо от расстояния от диктора на ближнем конце до микрофона.

В таком сценарии полнодуплексной речевой связи должно быть полностью удалено спорадическое эхо с использованием компенсации акустического эха, подавления акустического эха или комбинации обеих методик, например, как описано в [1, 2, 3]. Напротив, более постоянные возмущения, такие как фон или шум датчика, обычно могут быть только ослаблены до определенной величины, чтобы обеспечить сохранность качества речи, с использованием некоторых способов шумоподавления, например, как описано в [4]. Следовательно, для трудных (т.е., сложных или неблагоприятных) акустических сред полученный в результате сигнал может содержать некоторые ослабленные, но все еще слышимые шумовые компоненты. Цель автоматического управления усилением состоит в том, чтобы довести уровень улучшенного речевого сигнала до предопределенного и комфортного уровня. На фиг. 14 изображена типичная цепь обработки аудиосигнала, включающая в себя некоторое управление эхом, основанное либо на компенсации акустического эха, либо на подавлении акустического эха, модуль шумоподавления и модуль автоматического управления усилением. Модуль комфортного шума в конце цепи обработки формирует некоторый искусственный случайный шум, чтобы гарантировать приятный и сглаженный во времени уровень шума на выходе системы. Вставка комфортного шума инициируется, например, посредством управления эхом в периоды активности на дальнем конце, например, как описано в [5].

Кроме того, в речевой связи шумоподавление нацелено на ослабление некоторого стационарного или медленно изменяющегося во времени фона или шума датчика, присутствующих в аудиосигнале, при обеспечении сохранности желаемого речевого сигнала. Это выполняется, например, в частотной области на покадровой основе. Например, в течение каждого кадра спектральные области, проявляющие низкое отношение сигнал/шум (SNR), ослабляются, тогда как области с высоким отношением SNR сохраняются неизменными. Кроме того, более общее отношение сигнал/помехи (SIR) может учитываться для обработки спектральных областей, как описано выше.

В [6] первый фильтр NR (Noise Reduction; шумоподавляющий фильтр) вычисляется независимо от усиления AGC (Automatic Gain Control; автоматическое управление усилением). Затем вычисляется второй фильтр NR посредством масштабирования первого фильтра NR как функции усиления AGC, т.е., для большого усиления AGC усиление NR уменьшается (сильное ослабление шума), в то время как для малого усиления AGC усиление NR увеличивается (меньшее шумоподавление). Второй фильтр применяется ко входному сигналу. Напротив, аспект настоящего изобретения состоит в том, чтобы получить выполнение фильтра NR и AGC одновременно. Это обеспечивает полный контроль над уровнями речи и шума отдельно.

В таких системах существует проблема, заключающаяся в том, что, в частности, минимальные значения шумоподавляющего фильтра установлены фиксированными, что приводит к ухудшенному качеству звука обработанного аудиосигнала.

В отношении описанных проблем обработки аудиосигнала имеется потребность в улучшенной концепции, обеспечивающей улучшенное качество звука обработанного аудиосигнала.

Сущность изобретения

Предпочтительный вариант осуществления в соответствии с изобретением создает устройство для обработки аудиосигнала, содержащее анализатор аудиосигнала для анализа аудиосигнала, чтобы определить множество значений шумоподавляющего фильтра для множества частотных полос аудиосигнала, причем анализатор выполнен с возможностью определять значения шумоподавляющего фильтра таким образом, что значение шумоподавляющего фильтра больше или равно минимальному значению шумоподавляющего фильтра. Кроме того, анализатор аудиосигнала выполнен таким образом, что минимальное значение шумоподавляющего фильтра зависит от характеристики аудиосигнала. Кроме того, устройство содержит фильтр для фильтрации аудиосигнала, причем фильтр регулируется на основе значений шумоподавляющего фильтра.

Описанный вариант осуществления обеспечивает преимущество в том, что предоставляет улучшенное качество звука обработанного аудиосигнала. Улучшение происходит благодаря значениям шумоподавляющего фильтра, которые используются для фильтрации сигнала, причем значения шумоподавляющего фильтра регулируются таким образом, что они больше или равны минимальному значению шумоподавляющего фильтра. Выбор значения шумоподавляющего фильтра описанным образом дает преимущество, в результате которого можно избежать искажений сигнала, вызванных обработкой сигнала, вследствие малых значений шумоподавляющих фильтров. Кроме того, выбор минимального значения шумоподавляющего фильтра выполняется гибким образом на основе характеристики аудиосигнала. Гибкость минимального значения шумоподавляющего фильтра, например, может быть реализована таким образом, что определяется малое минимальное значение шумоподавления, когда характеристика аудиосигнала является большой, или минимальное значение шумоподавляющего фильтра может быть установлено равным большому значению, когда характеристика аудиосигнала является малой. Тем самым минимальный шумоподавляющий фильтр может быть отрегулирован для большого множества потенциальных аудиосигналов. Посредством фильтрации аудиосигнала с описанными значениями шумоподавляющего фильтра может быть получен аудиосигнал с более высоким качеством, например, характеризуемый более постоянным уровнем шума вследствие шумоподавления. Кроме того, может быть достигнуто более комфортное восприятие просушивания обработанного аудиосигнала, поскольку фильтр эффективно подавляет шум благодаря гибкому минимальному значению шумоподавляющего фильтра.

Кроме того, описанное устройство может иметь преимущество для обработки аудиосигнала таким образом, что нежелательный компонент сигнала, например, компонент фонового шума, подавляется или ослабляется, а желаемый компонент сигнала сохраняется или улучшается. В частности, когда, например, в качестве желаемого компонента аудиосигнала рассматривается речевой сигнал, описанный вариант осуществления позволяет сохранить речевой сигнал. Кроме того, разборчивость речевого сигнала может быть увеличена благодаря сокращению нежелательного компонента сигнала. Кроме того, например, слушатели с ослабленным слухом могут извлечь пользу из сигнала после обработки с помощью упомянутого выше варианта осуществления, поскольку разборчивость речевого сигнала имеет первостепенную важность для людей с ослабленным слухом. Кроме того, описанный вариант осуществления обеспечивает слушателю комфортное восприятие прослушивания, поскольку нежелательные и отвлекающие компоненты сигнала ослабляются или удаляются. Кроме того, описанный вариант осуществления позволяет улучшить желаемый компонент сигнала, когда аудиосигнал, например, был получен с помощью микрофона, и желаемая энергия компонента сигнала варьируется, например, вследствие переменного расстояния от источника до микрофона, изменения чувствительности микрофона или переменного количества энергии, испускаемой источником, (например, говорящим человеком).

В соответствии с предпочтительным вариантом осуществления анализатор аудиосигнала выполнен с возможностью определять значения шумоподавляющего фильтра с использованием определения максимума на основе множества неограниченных значений шумоподавляющего фильтра и минимального значения шумоподавляющего фильтра, минимальное значение шумоподавляющего фильтра является одинаковым для множества частотных полос аудиосигнала. Анализатор аудиосигнала, как описано выше, может иметь преимущество при предотвращении искажений речи или музыкальных оттенков, например, вследствие агрессивного шумоподавления. Например, когда значение шумоподавляющего фильтра для частотной полосы оценивается на основе отношения SNR (Signal-to-Noise Ratio; отношение сигнал/шум) и, например, используется ненадежный модуль оценки отношения SNR, указывающий нулевое отношение SNR, когда все еще присутствует некоторый желаемый компонент сигнала, частотная полоса может быть полностью подавлена. Полное подавление частотной полосы может привести к нежелательным артефактам, например, к искажению речи, когда фактически речь присутствовала в частотной полосе, или музыкальным оттенкам, например, вследствие модуляции шума. Кроме того, описанный вариант осуществления обеспечивает одинаковую величину минимального шумоподавления для множества частотных полос.

В соответствии с предпочтительным вариантом осуществления анализатор аудиосигнала выполнен с возможностью вычислять значение усиления из кадра аудиосигнала в качестве характеристики аудиосигнала. Значение усиления может иметь преимущество для улучшения аудиосигнала. Например, когда аудиосигнал содержит желаемый компонент сигнала с очень переменной энергией, значение усиления может быть применено к сигналу, чтобы компенсировать изменение энергии. Например, когда желаемый компонент сигнала является речевым сигналом, разборчивость может значительно улучшиться от применения значения усиления к аудиосигналу. Кроме того, например, комфорт прослушивания также может быть улучшен, когда посредством применения значения усиления достигается более постоянная желаемая энергия сигнала.

В соответствии с предпочтительным вариантом осуществления анализатор аудиосигнала выполнен с возможностью вычислять минимальное значение шумоподавляющего фильтра на основе предопределенного значения шумоподавления и значения усиления. Вычисление минимального значения шумоподавляющего фильтра, как описано выше, может являться полезным для адаптации минимального значения шумоподавляющего фильтра таким образом, что хотя желаемый компонент аудиосигнала может быть усилен посредством применения значения усиления, нежелательный компонент сигнала, например, фоновый шум, все еще может эффективно подавляться. Таким образом, например, совокупный отклик системы описанного предпочтительного варианта осуществления для нежелательного компонента сигнала не будет усиливающим, т.е. нежелательный компонент сигнала будет ослаблен или оставлен неизменным.

В дополнительном предпочтительном варианте осуществления анализатор аудиосигнала выполнен с возможностью вычислять минимальное значение шумоподавляющего фильтра таким образом, что минимальное значение шумоподавляющего фильтра уменьшается с увеличением значения усиления. Описанная обратная пропорциональность между минимальным значением шумоподавляющего фильтра и значением усиления может быть полезной при применении значения усиления к аудиосигналу. Например, когда обеспечено большое значение усиления, шумовой компонент аудиосигнала, подвергнутый значению усиления, будет соответственно усилен. Таким образом, сокращение минимального шумоподавляющего фильтра пропорционально значению усиления может привести к постоянному совокупному шумоподавлению, достигнутому предпочтительным вариантом осуществления.

В дополнительном предпочтительном варианте осуществления анализатор аудиосигнала выполнен с возможностью вычислять минимальное значение шумоподавляющего фильтра с использованием определения минимума из предопределенного значения шумоподавления и частного от деления предопределенного значения шумоподавления на значение усиления. Использование определения минимума, как описано выше, может быть полезным, чтобы достигнуть комфортного восприятия прослушивания, когда, например, обеспечены малые значения усиления, частное от деления предопределенного значения шумоподавления на значения усиления является большим. Таким образом, шумоподавление на основе этого частного может привести к недостаточному количеству сокращаемого шума, тогда как в описанном предпочтительном варианте осуществления обеспечено минимальное шумоподавление. Тем самым, может быть обеспечено комфортное восприятие прослушивания, поскольку шум по меньшей мере сокращается до желаемой предопределенной величины.

В дополнительном предпочтительном варианте осуществления анализатор аудиосигнала выполнен с возможностью определять минимальное значение шумоподавляющего фильтра в соответствии с первым определением минимума, первое определение минимума зависит от предопределенного значения шумоподавления и результата второго определения минимума. Результат второго определения минимума зависит от обратного значения для значения усиления и результата определения максимума. Результат определения максимума зависит от обратного значения для предопределенного значения предела искажения и частного от деления предопределенного значения шумоподавления на значение усиления. Описанная конфигурация анализатора аудиосигнала может быть полезной для сокращения артефактов шумоподавления, таких как, например, искажения речи вследствие агрессивного шумоподавления. В частности, большие значения усиления могут привести к малому частному от деления предопределенного значения шумоподавления на значение усиления, потенциально приводя к значениям, близким к 0, и, таким образом, потенциально вызывая искажения сигнала при применении в качестве минимального значения шумоподавления. Использование нижней границы, как описано в предпочтительном варианте осуществления, выполненное посредством определения максимума, включенного в оценку минимального значения шумоподавляющего фильтра, предотвращает эту возможность, обеспечивая потенциально более комфортное восприятие прослушивания.

В дополнительном предпочтительном варианте осуществления анализатор аудиосигнала выполнен с возможностью определять минимальное значение шумоподавляющего фильтра таким образом, что оно равно предопределенному значению шумоподавления, когда значение усиления находится между 0 и 1. Иначе минимальное значение шумоподавляющего фильтра равно частному от деления предопределенного значения шумоподавления на значение усиления, когда значение усиления находится между 1 и произведением предопределенного значения шумоподавления и предопределенного предела искажения. Иначе минимальное значение шумоподавляющего фильтра равно обратному значению предопределенного предела искажения, когда значение усиления больше, чем произведение предопределенного значения шумоподавления и предопределенного предела искажения, и меньше, чем предопределенный предел искажения. Иначе минимальное значение шумоподавляющего фильтра равно обратному значению для значения усиления, когда значение усиления больше, чем предопределенный предел искажения. Анализатор аудиосигнала, сконфигурированный, как описано выше, является полезным при предотвращении искажения речи или музыкальных оттенков, обеспечивая большее минимальное значение шумоподавляющего фильтра даже для больших значений усиления, тем самым предотвращая агрессивное шумоподавление.

В дополнительном предпочтительном варианте осуществления анализатор аудиосигнала выполнен с возможностью анализировать частотную полосу из множества частотных полос аудиосигнала, чтобы определить, имеет ли частотная полоса первую характеристику аудиосигнала или вторую характеристику аудиосигнала, причем первая характеристика отличается от второй характеристики. Кроме того, анализатор аудиосигнала выполнен с возможностью определять значения шумоподавляющего фильтра, когда для частотной полосы была определена вторая характеристика, таким образом, что значения шумоподавляющего фильтра равны произведению предопределенного значения шумоподавления и значения усиления, когда значение усиления находится между 0 и 1. Иначе значения шумоподавляющего фильтра равны предопределенному значению шумоподавления, когда значение усиления находится между 1 и произведением предопределенного значения шумоподавления и предопределенного предела искажения. Иначе значения шумоподавляющего фильтра равны частному от деления значения усиления на предопределенный предел искажения, когда значение усиления больше, чем произведение предопределенного значения шумоподавления и предопределенного предела искажения, и меньше, чем предопределенный предел искажения. Иначе значения шумоподавляющего фильтра равны 1, когда значение усиления больше, чем предопределенный предел искажения. Описанный выше анализатор аудиосигнала может являться полезным для обеспечения значений шумоподавляющего фильтра в сценариях, когда, например, вторая характеристика описывает шумовое содержание аудиосигнала. Вторая характеристика может представлять собой неактивный кадр или частотную полосу, когда, например, голосовая активность указывает, что голос не присутствует в кадре или частотной полосе. В описанном шумовом сценарии совокупный отклик системы не приводит к усилению шума.

В дополнительном предпочтительном варианте осуществления анализатор аудиосигнала выполнен с возможностью вычислять для первого кадра аудиосигнала первое значение усиления, дающее в результате первое минимальное значение шумоподавления. Кроме того, анализатор аудиосигнала выполнен с возможностью вычислять для второго кадра аудиосигнала второе значение усиления, дающее в результате не сглаженное второе минимальное значение шумоподавляющего фильтра, причем второй кадр следует за первым кадром во времени. Кроме того, анализатор аудиосигнала выполнен с возможностью вычислять сглаженное минимальное значение шумоподавляющего фильтра для второго кадра с использованием не сглаженного второго минимального значения шумоподавляющего фильтра и первого минимального значения шумоподавляющего фильтра. Анализатор аудиосигнала, сконфигурированный, как описано выше, может являться полезным для предотвращения больших колебаний минимального значения шумоподавляющего фильтра, тем самым обеспечивая гладкий разностный уровень шума, предотвращающий некомфортный эффект пульсации шума.

В дополнительном предпочтительном варианте осуществления устройство содержит первый частотно-временной конвертер, обеспечивающий представление в частотной области аудиосигнала, обеспечивающего множество частотных полос аудиосигнала. Кроме того, анализатор аудиосигнала выполнен с возможностью вычислять значение шумоподавляющего фильтра для частотной полосы из множества частотных полос аудиосигнала на основе одной или более частотных полос из множества частотных полос аудиосигнала и минимального значения шумоподавления. Кроме того, минимальное значение шумоподавляющего фильтра основано на предопределенном значении шумоподавления, которое является одинаковым для каждой частотной полосы из множества частотных полос аудиосигнала, или предопределенном пределе искажения, который является одинаковым для множества частотных полос аудиосигнала, и значении, выведенном из характеристики аудиосигнала, значение является одинаковым для каждой частотной полосы из множества частотных полос аудиосигнала. Значение, извлеченное из характеристики аудиосигнала, например, может являться значением усиления. Кроме того, описанное выше устройство может являться полезным при обеспечении гибкого спектрального разрешения на основе первого частотно-временного конвертера, тем самым давая возможность индивидуальной обработки каждой частотной полосы из множества частотных полос аудиосигнала.

В дополнительном предпочтительном варианте осуществления фильтр выполнен с возможностью модифицировать каждую частотную полосу из множества частотных полос аудиосигнала, применяя значения шумоподавляющего фильтра для частотной полосы, чтобы получить второе множество частотных полос. Кроме того, устройство содержит второй частотно-временной конвертер, который выполнен с возможностью обеспечивать выходной сигнал во временной области из второго множества частотных полос. Описанное выше устройство может являться полезным при производстве на выходе слышимого аудиосигнала, выведенного из второго множества частотных полос.

В дополнительном предпочтительном варианте осуществления устройство содержит второй частотно-временной конвертер, который выполнен с возможностью обеспечивать преобразование во временной области значений шумоподавляющего фильтра, обеспеченных анализатором аудиосигнала. Кроме того, фильтр выполнен с возможностью обеспечивать выходной аудиосигнал, полученный посредством свертки преобразованных значений шумоподавляющего фильтра во временной области и аудиосигнала. Описанное выше устройство имеет преимущество для получения системы с малой задержкой, работающей почти в реальном времени, поскольку для фильтрации не требуется задержка вследствие обработки на основе кадров.

В дополнительном предпочтительном варианте осуществления анализатор аудиосигнала выполнен с возможностью вычислять информацию амплитуды аудиосигнала. Кроме того, анализатор аудиосигнала выполнен с возможностью вычислять значение усиления как характеристику (значение, выведенное из характеристики) аудиосигнала на основе информации амплитуды (характеристики аудиосигнала) и предопределенного целевого значения, на которое настраивается аудиосигнал посредством значения усиления. Обеспеченное значение усиления может успешно использоваться, например, для усиления или ослабления сигнала до целевого значения, например, вследствие переменной энергии желаемого компонента сигнала в аудиосигнале.

В дополнительном варианте осуществления анализатор аудиосигнала выполнен с возможностью фильтровать аудиосигнал с помощью психоакустического фильтра перед вычислением информации амплитуды. Кроме того, психоакустический фильтр выполнен с возможностью проявлять первое значение ослабления для первого частотного диапазона, второе значение ослабления для второго частотного диапазона и третье значение ослабления для третьего частотного диапазона. Кроме того, фильтр выполнен таким образом, что второй частотный диапазон находится между первым частотным диапазоном и третьим частотным диапазоном. Первый частотный диапазон, второй частотный диапазон и третий частотный диапазон могут быть сконфигурированы таким образом, что они не накладываются друг на друга. Кроме того, фильтр выполнен таким образом, что второе значение ослабления меньше, чем первое значение ослабления и третье значение ослабления. Вычисление информации амплитуды в зависимости от психоакустического фильтра, как описано выше, может являться полезным при обеспечении субъективно более подходящего вычисления значения усиления на основе информации амплитуды. Значение усиления, вычисленное на основе психоакустического показателя, например, dB(A), dB(B) или dB(C), может привести к более комфортному восприятию прослушивания при применении к аудиосигналу.

В дополнительном предпочтительном варианте осуществления анализатор аудиосигнала содержит блок обнаружения голосовой активности, предоставляющий первую информацию голосовой активности первого кадра аудиосигнала и вторую информацию голосовой активности второго кадра аудиосигнала, и блок памяти для хранения предыдущего значения усиления. Кроме того, анализатор аудиосигнала выполнен с возможностью оценивать значение усиления на основе второго кадра аудиосигнала, в котором был обнаружен голос в соответствии со второй информацией голосовой активности. В качестве альтернативы анализатор аудиосигнала выполнен с возможностью сохранять значение усиления первого кадра, если во втором кадре не была обнаружена голосовая активность в соответствии со второй информацией голосовой активности, когда голос был обнаружен в первом кадре на основе первой информации голосовой активности, при чем второй кадр следует за первым кадром во времени. Описанное выше устройство может иметь преимущество в предотвращении вычисления значения усиления в сегментах аудиосигнала, в которых не присутствует интересующий сигнал, тем самым предотвращая, например, усиление нежелательных компонентов сигнала.

В предпочтительном варианте осуществления анализатор аудиосигнала выполнен с возможностью вычислять минимальное значение шумоподавления для текущего кадра на основе значения, выведенного из характеристики аудиосигнала, вычисленного для текущего кадра. Кроме того, анализатор аудиосигнала выполнен с возможностью анализировать аудиосигнал для определения значения, выведенного из характеристики из аудиосигнала. Кроме того, фильтр содержит первую ступень фильтра и вторую ступень фильтра, причем первая ступень фильтра регулируется с использованием значения, выведенного из характеристики из аудиосигнала (например, значения усиления). Кроме того, вторая ступень фильтра регулируется в соответствии со значениями шумоподавляющего фильтра. Описанный предпочтительный вариант осуществления дает возможность гибкой структуры фильтра, например, первая ступень может следовать за второй ступенью, поскольку они не зависят друг от друга.

В дополнительном предпочтительном варианте осуществления анализатор аудиосигнала выполнен с возможностью вычислять минимальное значение шумоподавления для второго кадра на основе значения, выведенного из характеристики аудиосигнала, вычисленного для первого кадра. Кроме того, фильтр содержит первую ступень фильтра и вторую ступень фильтра, причем первая ступень фильтра регулируется в соответствии со значениями шумоподавляющего фильтра, и причем вторая ступень фильтра регулируется с использованием значения, выведенное из характеристики аудиосигнала. Кроме того, анализатор аудиосигнала выполнен с возможностью анализировать выход первой ступени фильтра для определения значения, выведенного из характеристики аудиосигнала, причем второй кадр следует за первым кадром во времени. Анализатор аудиосигнала, сконфигурированный, как описано выше, является полезным для обеспечения гибкой фильтрации с малой задержкой аудиосигнала, поскольку может использоваться ранее вычисленное значение усиления.

В дополнительном предпочтительном варианте осуществления анализатор аудиосигнала выполнен с возможностью определять значение усиления на основе информации голосовой активности и аудиосигнала. В качестве альтернативы анализатор аудиосигнала выполнен с возможностью определять значение усиления на основе информации голосовой активности и аудиосигнала, отфильтрованного посредством значений шумоподавляющего фильтра. Кроме того, анализатор аудиосигнала выполнен с возможностью получать информацию голосовой активности на основе аудиосигнала. Кроме того, анализатор аудиосигнала выполнен с возможностью получать информацию голосовой активности на основе аудиосигнала, отфильтрованного посредством фильтра. В качестве альтернативы анализатор аудиосигнала выполнен таким образом, что информация голосовой активности, указывающая присутствие речи, используется для уменьшения значения усиления. Описанный выше анализатор аудиосигнала предоставляет гибкость с точки зрения того, какой сигнал используется для вычисления усиления или какой сигнал используется для обнаружения голосовой активности, и предотвращает усиления шума, уменьшая значения усиления во время речевых пауз или даже не применяя усиления во время речевых пауз.

Варианты осуществления настоящего изобретения обеспечивают способ для обработки аудиосигнала, способ содержит: анализ аудиосигнала, чтобы определить множество значений шумоподавляющего фильтра для множества частотных полос аудиосигнала, определение значения шумоподавляющего фильтра таким образом, что значение шумоподавляющего фильтра больше или равно минимальному значению шумоподавляющего фильтра, и таким образом, что минимальное значение шумоподавляющего фильтра зависит от характеристики аудиосигнала; и фильтрацию аудиосигнала на основе значений шумоподавляющего фильтра. Описанный способ имеет преимущество, например, когда характеристика аудиосигнала используется для оценки значение усиления, которое может быть применено к аудиосигналу. Кроме того, гибкий шумоподавляющий фильтр может настраиваться на это значение посредством подходящего выбора необходимых значений шумоподавляющего фильтра в зависимости значения усиления. Тем самым можно избежать усиления нежелательного компонента сигнала и достигнуть сохранности или улучшения желаемого компонента, давая возможность комфортного восприятия прослушивания.

Дополнительный предпочтительный вариант осуществления включает в себя компьютерную программу с программным кодом для выполнения способа, когда компьютерная программа выполняется на компьютере или микроконтроллере.

Кроме того, аспекты относятся к устройству для анализа аудиосигнала для определения значений шумоподавляющего фильтра, причем минимальное значение фильтра подавления зависит от характеристики аудиосигнала, и для фильтрации аудиосигнала на основе значений шумоподавляющего фильтра.

Кроме того, варианты осуществления изобретения относятся к устройствам и способам для совместного шумоподавления и автоматического управления усилением, обеспечивающего средство для автоматического управления уровнем речевого сигнала в выходном сигнале, предотвращая произвольное усиление или быстрые колебания уровня шума. Дополнительные варианты осуществления изобретения описывают устройства и способы, включающие в себя механизм управления для смягчения искажения сигнала для больших значений усиления, например, усиления AGC (Automatic Gain Control; автоматическое управление усилением). Кроме того, вариант осуществления изобретения относится к совместному выполнению NR (Noise Reduction; шумоподавление) и AGC. Дополнительный аспект изобретения состоит в обеспечении механизма автоматического управления усилением для желаемого речевого компонента с предотвращением произвольного усиления и нежелательных колебаний уровня шума.

Кроме того, аспекты настоящего изобретения относятся к области обработки аудиосигналов, более конкретно, к подходу для автоматической регулировки уровня аудиосигнала, например, аудиосигнала, содержащего некоторые желаемые речевые компоненты, а также некоторые нежелательные шумовые компоненты.

Кроме того, аспекты изобретения относятся к варианту осуществления для совместного шумоподавления и автоматического управления усилением, обеспечивающего средство для автоматического управления уровнем речевого сигнала в выходном сигнале с предотвращением произвольного усиления или быстрых колебаний уровня шума. Аспекты изобретения дополнительно включают в себя механизм управления для смягчения искажения сигнала для больших усилений AGC.

Краткое описание чертежей

Далее варианты осуществления настоящего изобретения будут разъяснены со ссылкой на прилагаемые чертежи, на которых:

Фиг. 1 показывает блок-схему варианта осуществления в соответствии с изобретением;

Фиг. 2 показывает блок-схему анализатора аудиосигнала варианта осуществления устройства в соответствии с фиг. 1;

Фиг. 3 показывает блок-схему варианта осуществления устройства в соответствии с изобретением;

Фиг. 4 показывает блок-схему варианта осуществления устройства в соответствии с изобретением;

Фиг. 5 показывает блок-схему стадии выбора значения фильтра анализатора аудиосигнала в соответствии с фиг. 2;

Фиг. 6 показывает блок-схему стадии выбора значения фильтра анализатора аудиосигнала в соответствии с фиг. 2;

Фиг. 7 показывает блок-схему стадии выбора значения фильтра анализатора аудиосигнала в соответствии с фиг. 2;

Фиг. 8 показывает блок-схему предпочтительного варианта осуществления в соответствии с изобретением;

Фиг. 9 показывает блок-схему предпочтительного варианта осуществления в соответствии с изобретением;

Фиг. 10 показывает диаграмму совокупного отклика системы;

Фиг. 11 показывает диаграмму минимального значения шумоподавляющего фильтра в зависимости от значения усиления;

Фиг. 12 показывает графики сигнала до и после обработки сигнала;

Фиг. 13 показывает блок-схему сценария полнодуплексной речевой связи;

Фиг. 14 показывает блок-схему стороны приемника или передатчика сценария полнодуплексной речевой связи полного дуплекса;

Фиг. 15 показывает блок-схему в соответствии с аспектом изобретения;

Фиг. 16 показывает блок-схему в соответствии с аспектом изобретения;

Фиг. 17 показывает блок-схему в соответствии с аспектом изобретения;

Фиг. 18 показывает блок-схему в соответствии с предпочтительным вариантом осуществления в соответствии с изобретением; и

Фиг. 19 показывает блок-схему в соответствии с предпочтительным вариантом осуществления в соответствии с изобретением.

Осуществление изобретения

Фиг. 1 изображает блок-схему устройства 100 в соответствии с вариантом осуществления изобретения для обработки аудиосигнала 110, причем аудиосигнал 110 может быть обеспечен в спектральном представлении, с фильтром 120, отрегулированным в соответствии со значениями шумоподавляющего фильтра, обеспеченных анализатором 130 аудиосигнала. Значения шумоподавляющего фильтра определяются 130a в анализаторе аудиосигнала таким образом, чтобы они были больше, чем минимальное значение 130b' шумоподавляющего фильтра. Минимальное значение 130b' шумоподавляющего фильтра определяется в блоке 130b на основе характеристики аудиосигнала 130c', которая определяется в анализаторе 130 аудиосигнала в блоке 130c. Кроме того, оценка основана на неограниченных значениях 130d' шумоподавляющего фильтра, которые оцениваются в блоке 130d для множества частотных полос аудиосигнала. Кроме того, характеристика аудиосигнала 130c' одинакова для множества частотных полос аудиосигнала. Неограниченные значения 130d' шумоподавляющего фильтра могут быть оценены, например, в соответствии с оптимальным фильтром, таким как фильтр Винера, на основе спектральной плотности мощности (PSD)

аудиосигнала 110, например, входного аудиосигнала, и плотности PSD

шума, содержащегося в аудиосигнале 110

где, например,

- индекс временного кадра, и

- индекс спектральной подполосы. Фильтр Винера

извлекает желаемый сигнал из шумного сигнала, вычисленного, как описано выше. На практике плотности PSD должны быть оценены для фильтра Винера.

Улучшенный сигнал может быть получен в частотной области посредством умножения множества частотных полос аудиосигнала, например, входного спектра, на упомянутый выше фильтр

, например, на покадровой основе.

Замечая, что отношение SNR может быть определено как

уравнение для фильтра Винера

может быть переформулировано как

Таким образом, фильтр Винера

берет нулевое значение для

и сходится к 1 для больших значений отношения SNR, что является желаемым поведением для ослабления шума, обеспечивая сохранность желаемых компонентов сигнала. В качестве альтернативы фильтры других типов, такие как модуль оценки спектральной амплитуды [4], могут использоваться для оценки неограниченных значений шумоподавляющего фильтра. Кроме того, неограниченные значения шумоподавляющего фильтра могут быть основаны на эвристической функции.

Аудиосигнал 100 может содержать желаемый компонент, например, речь, и некоторый нежелательный компонент, например, фоновый шум. Фильтр 120 регулируется посредством анализатора 130 сигнала таким образом, чтобы, например, речевой компонент аудиосигнала 110 был более разборчивым после фильтрации аудиосигнала 110 с помощью фильтра 120. Кроме того, нежелательный компонент аудиосигнала 110 может быть подавлен после фильтрации аудиосигнала 110 с помощью фильтра 120. Минимальное значение шумоподавляющего фильтра, которое действует как ограничение на неограниченные значения шумоподавляющего фильтра, позволяют улучшить сигнал и избежать искажения речи или музыкальных оттенков.

Устройство 100 обеспечивает возможность улучшения желаемого компонента аудиосигнала 110, предоставляя компромисс между улучшением сигнала и подавлением шума. Этот компромисс характеризуется минимальным значением шумоподавляющего фильтра, действующим как ограничение, поскольку его можно регулировать либо для удаления большего нежелательного компонента сигнала, либо для сокращения удаления нежелательных компонентов сигнала, чтобы избежать искажений сигнала.

Фиг. 2 показывает блок-схему анализатора 130 аудиосигнала варианта осуществления изобретения в соответствии с устройством 100, изображенным на фиг. 1. Анализатор 130 аудиосигнала выполняет оценку 210 неограниченного значения шумоподавляющего фильтра на основе множества частотных полос аудиосигнала 215. Для каждой частотной полосы из множества частотных полос аудиосигнала 215 в анализаторе 130 аудиосигнала оценивается неограниченное значение 220 шумоподавляющего фильтра. Кроме того, выполняется оценка 230 минимального значения шумоподавления на основе значения, выведенного из характеристики аудиосигнала 232 (например, значение усиления) и предопределенного значения 234 шумоподавления. Неограниченные значения 220 шумоподавляющего фильтра и минимальное значение 240 шумоподавляющего фильтра используются для определения значений 250 шумоподавляющего фильтра. Это может быть сделано, например, посредством выполнения операции максимизации, чтобы получить множество значений 260 шумоподавляющего фильтра для множества частотных полос аудиосигнала 215. Гарантируется, чтобы значения 260 шумоподавляющего фильтра, которые получены посредством операции 250 максимизации, были больше, чем минимальное значение 240 шумоподавляющего фильтра, и тем самым можно избежать малых или нулевых значений шумоподавляющего фильтра. Избегая малых или нулевых значений 260 шумоподавляющего фильтра, достижимое подавление шумов ограничивается минимальным значением 240 шумоподавляющего фильтра, чтобы избежать потенциального искажения вследствие агрессивного шумоподавления.

Фиг. 3 показывает блок-схему устройства 300 в соответствии с предпочтительным вариантом осуществления изобретения. Устройство 300 содержит анализатор 130 аудиосигнала и фильтр 310. Кроме того, устройство 300 содержит первый частотно-временной конвертер 320a и второй частотно-временной конвертер 320b. Кроме того, устройство 300 позволяет применять значения усиления к аудиосигналу 110 до или после фильтрации аудиосигнала 110 с помощью фильтра 310. Эти возможности обозначены переключателями 330a и 330b. Кроме того, устройство 300 содержит другой переключатель 330c, который позволяет вычислять значение, выведенное из характеристики аудиосигнала 110 (например, значение усиления), до или после фильтрации аудиосигнала 110 с помощью фильтра 310. Кроме того, анализатор 130 аудиосигнала содержит обнаружение 340 голосовой активности, психоакустический фильтр 342 и блок 346 памяти. В зависимости от результата обнаружения 340 голосовой активности характеристика аудиосигнала 348a, например, информация амплитуде, вычисляется 348 на основе аудиосигнала 110, отфильтрованного психоакустическим фильтром 342, когда был обнаружен голос.

Кроме того, когда голос был обнаружен посредством обнаружения 340 голосовой активности, новое значение усиления вычисляется 350 на основе информации 348a амплитуды и целевого значения. Кроме того, переключатель 352 позволяет использование старого значения усиления, сохраненного в блоке памяти 346, когда посредством обнаружения 340 голосовой активности не был обнаружен голос. Напротив, когда посредством обнаружения 340 голосовой активности будет обнаружен голос, вместо старого значения усиления в памяти 346 будет переписано значение усиления текущего кадра 350a.

Кроме того, анализатор 130 аудиосигнала выполнен с возможностью вычислять неограниченные значения 356 шумоподавляющего фильтра на основе множества частотных полос аудиосигнала 354, например, на основе фильтра Винера. Кроме того, анализатор 130 аудиосигнала выполнен с возможностью оценивать минимальное значение 358 шумоподавляющего фильтра, которое основано на предопределенном значении

234 шумоподавления, например, на пределе ослабления шума

, или на предопределенном пределе искажения 358a и значении, выведенном из характеристики аудиосигнала, например, значении усиления. Если в текущем кадре голосовая активность не была обнаружена посредством обнаружения 340 голосовой активности, оценка минимального значения 358 шумоподавляющего фильтра для вычисления минимального значения 358c шумоподавления может полагаться на значение усиления, которое сохранено в блоке 346 памяти. Если голос является активным в текущем кадре, текущее значение усиления может использоваться для оценки минимального значения 358 шумоподавления, выбор между старым и новым значением усиления обеспечивается посредством переключателя 358b.

Минимальное значение 358c шумоподавляющего фильтра, полученное при оценке 358 минимального значения 358 шумоподавляющего, может быть подвергнуто факультативному сглаживанию 360. Сглаженное или не сглаженное минимальное значение 360a шумоподавляющего фильтра, которое является одинаковым для множества частотных полос аудиосигнала 354, и множество неограниченных значений 356a шумоподавляющего фильтра, полученное посредством оценки 356 неограниченных значений 356 шумоподавляющего фильтра, подвергается операции 362 максимизации. Операция 362 максимизации обеспечивает значения 354 шумоподавляющего фильтра для множества частотных полос аудиосигнала 354 для регулировки фильтра 310.

В своей простейшей форме применяется постоянное минимальное значение шумоподавления. Фильтр Винера

берет нулевое значение для

и сходится к 1 для больших значений отношения SNR, что является желаемым поведением для ослабления нежелательных компонентов аудиосигнала, например, шума, обеспечивая сохранность желаемых компонентов аудиосигнала, например, речи. Постоянное минимальное значение

шумоподавляющего фильтра может использоваться, чтобы избежать агрессивного шумоподавления. Таким образом, значения шумоподавляющего фильтра ограничены максимальной величиной ослабления шума следующим образом:

описано здесь для неограниченных значений

шумоподавляющего фильтра на основе фильтра Винера, но также может быть соответственно применено к по-другому полученным неограниченным значениям

шумоподавляющего фильтра. Предел ослабления шума

определен как

. Это соответствует максимальному ослаблению шума фильтра

, что также может быть интерпретировано как желаемая величина ослабления шума во время речевых пауз, т.е.

. Она, как правило, выбирается между -20 дБ и -10 дБ. Поскольку другие правила фильтрации также могут использоваться вместо фильтра Винера, описанное выше уравнение может быть обобщено следующим образом:

где

относится к произвольным неограниченным значениям шумоподавляющего фильтра на основе произвольного правила шумоподавления.

Фильтр 310 применяется к каждой частотной полосе аудиосигнала 354a-d с подходящим значением из значений 364a-d шумоподавляющего фильтра. Посредством фильтрации множества частотных полос аудиосигнала 354 с помощью фильтра 310 получается второе множество частотных полос 366. Второе множество частотных полос 366 может быть преобразовано во временную область с помощью второго частотно-временного конвертера 320b, чтобы был получен слышимый сигнал.

Кроме того, умножение на значение усиления до или после фильтрации аудиосигнала 110, обозначенное переключателями 330a и 330b, позволяет устройству 300 компенсировать нижний уровень желаемого компонента сигнала в аудиосигнале 110. Кроме того, посредством фильтрации аудиосигнала 110 в частотной области с помощью фильтра 310 устройство 300 обеспечивает энергосбережение благодаря операции в частотной области по сравнению со сверткой во временной области.

Для заданного значения

усиления AGC как значения, выведенного из характеристики аудиосигнала 110, совместная задача NR+AGC рассматривается как задача фильтрации, причем желаемым сигналом больше не является желаемый компонент сигнала аудиосигнала 110, например, речевой сигнал как таковой, а является желаемый компонент сигнала, масштабированный посредством усиления AGC. Выводя, например, фильтр Винера, извлекающий масштабированный желаемый компонент сигнала, например, речевой сигнал, из шумного входного сигнала, мы получаем следующее правило фильтрации:

которое может быть переформулировано как функция фильтра Винера

, как описано выше для шумоподавления:

где

- значение усиления, например, масштабный коэффициент AGC.

Как описано выше, для ограничения искажения сигнала вводится предел ослабления шума

Таким образом, на основе проверки

видно, что совместное выполнение NR и AGC эквивалентно применению масштабного коэффициента AGC

на выходе фильтра Винера (или эквивалентно на его входе), подвергнутого минимальному значению шумоподавления, например, пределу ослабления шума, которое пропорционально усилению AGC.

Кроме того, описанное выше уравнение для

может быть обобщено для произвольных оптимальных или эвристических правил фильтрации, что приводит к

где

Кроме того, минимальное значение шумоподавления и, таким образом, значения шумоподавляющего фильтра могут быть оценены посредством выполнения обработки AGC и NR совместным образом, поскольку это позволяет лучше управлять уровнем желаемого компонента сигнала аудиосигнала 110, например, речи, и уровнем шума на выходе. VAD (Voice Activity Detection; обнаружение речевой активности) используется, чтобы инициировать этапы оценки уровня и вычисления усиления, но умножение выходного сигнала NR на усиление AGC выполняется для каждого кадра, независимо от речевой активности. В соответствии с аспектом изобретения фильтрация не полагается на фиксированное минимальное значение шумоподавления, например, фиксированный предел ослабления шума. Напротив, применяется минимальное значение шумоподавляющего фильтра, например, предел ослабления шума

, зависящее (и следовательно, например, изменяющееся во времени) от значения, выведенного из характеристики аудиосигнала 110, например, AGC-усиления, что приводит к фильтру NR

где

адаптирован на покадровой основе как функция желаемого ослабления шума

и усиления AGC. Верхний индекс [UC] относится к неограниченному случаю, в отличие от ограниченного случая, представленного позже.

В соответствии с аспектом изобретения, минимальное значение шумоподавляющего фильтра, зависящее от значения усиления, например, предел ослабления шума

, может быть получено в соответствии с

. В соответствии с дополнительным аспектом минимальное значение шумоподавления, например, неограниченный предел ослабления шума, определяется по-другому, чтобы получить более хорошее ослабление шума, когда AGC ослабляет сигнал (т.е.

Усиление AGC не используется для масштабирования усилений NR как функция усиления AGC. Вместо этого усиление AGC непосредственно включено в конструкцию фильтра NR

через минимальное значение шумоподавляющего фильтра S, например, предел ослабления шума.

Чтобы проиллюстрировать преимущество использования изменяющегося во времени предела ослабления шума

вместо фиксированного предела

, отклик совокупного фильтра

выводится для частотно-временных областей, в которых доминирует либо речь (высокое отношение SNR), либо шум (низкое отношение SNR):

- Случай

-- В частотно-временных областях с низким отношением SNR, в которых доминирует шум, мы можем предположить, что фильтр NR

достигает своего минимального

, и, следовательно, совокупный отклик системы

становится:

и это показывает, что сегменты, в которых доминирует шум, масштабируются посредством желаемой величины шумоподавления независимо от усиления AGC.

-- В частотно-временных областях с высоким отношением SNR, в которых доминирует речь, мы можем предположить, что фильтр NR оставляет речь в основном неизменной, т.е.,

, и, следовательно, общий отклик становится:

и это показывает, что сегменты, в которых доминирует речь, масштабируются посредством усиления AGC, как это является желаемым, независимо от желаемой величины шумоподавления.

- Случай

С использованием таких же рассуждений, как описано выше, мы можем написать

и это показывает, что речевые сегменты масштабируются посредством усиления AGC

, как ожидалось, и шум по меньшей мере ослабляется посредством желаемого количества ослабления шума

Таким образом, видно, что адаптация предела ослабления шума как функции желаемого шумового ослабления и усиления AGC в соответствии с

обеспечивает полный контроль над уровнями речи и шума на выходе системы для положительных усилений AGC. Таким образом, могут быть достигнуты согласованные уровни речи и шума, и можно избежать эффектов пульсации шума, как изображено на графике 1250.

Когда AGC ослабляет входной сигнал, т.е.,

, мы видим из

что шум не усилен на выходе по сравнению со входом, и обеспечена минимальная величина ослабления шума. В этом случае следует отметить, что это вносит низкоуровневый, но изменяющийся во времени порог шума, вызванный изменяющимся во времени ослаблением AGC. Однако можно предположить на практике, что входной уровень речи остается относительно постоянным. При условии, что VAD может точно обнаружить присутствие речи, усиление AGC, таким образом, будет колебаться лишь медленно после схождения, и абсолютный уровень шума на выходе системы будет варьироваться лишь медленно, и это предотвращает эффект пульсации шума.

Как представлено выше, минимальное значение 360a шумоподавляющего фильтра выводится как функция желаемого ослабления шума и усиления AGC. Это может быть достигнуто, например, на основе

Этот подход может произвести произвольно малый предел ослабления шума для больших усилений AGC

. На практике при применении агрессивного шумоподавления могут возникнуть слышимые артефакты. Типичное появление артефактов:

- искажения речи, преимущественно на высоких частотах, на которых речь самая слабая,

- музыкальные оттенки, характеризуемые очень нестационарной окраской фонового шума.

Чтобы получить менее агрессивное шумоподавление, т.е., умеренное шумоподавление, для больших усилений AGC и, следовательно, смягчить артефакты шумоподавления, на предел ослабления шума может быть наложено ограничение. В соответствии с одним аспектом изобретения минимальное значение 360a шумоподавляющего фильтра вычисляется как функция усиления AGC

, предопределенного значения

234 шумоподавления, например, желаемой величины ослабления шума, и предела искажения

358a, что дает в результате

где верхний индекс [DC] обозначает случай с ограничением искажения, в отличие от упомянутого выше случая, обозначенного верхним индексом [UC]. Этот подход более подробно проиллюстрирован на фиг. 7 и фиг. 9.

Фильтр NR в случае с ограничением искажения получается аналогичным образом, как описано выше, т.е.

что приводит к тому, что совокупный фильтр выполняет NR и AGC:

Предел искажения

358a является константой, которая должна удовлетворять

. Он также может пониматься как величина улучшения отношения SNR, позволяемая системой. Низкий

обеспечивает хорошую защиту от артефактов шумоподавления, но за счет более плохого ослабления шума. Это изображено на графике 1260, где уровень шума увеличивается по мере усиления речи. Можно легко проверить, что очень большой предел искажения

358 в основном смягчает ограничение, и

становится эквивалентным своей неограниченной

копии. Предел искажения, как правило, выбирается между 15 дБ и 25 дБ.

Кроме того, инструменты обработки, такие как временное сглаживание, могут использоваться для

или

, чтобы сгладить предел ослабления шума, т.е., минимальное значение шумоподавляющего фильтра, во времени.

Фиг. 4 иллюстрирует блок-схему устройства 400 в соответствии с предпочтительным вариантом осуществления изобретения. Устройство 400 содержит анализатор 130 аудиосигнала, как описанный на фиг. 3 для устройства 300. Кроме того, устройство 400 содержит первый частотно-временной конвертер 320a, который выполнен с возможностью обеспечивать множество частотных полос аудиосигнала 354 анализатору 130 аудиосигнала. Кроме того, устройство 400 содержит второй частотно-временной конвертер 320b, который выполнен с возможностью обеспечивать представление временной области значений 364 шумоподавляющего фильтра. Второй частотно-временной конвертер 320b обеспечивает представление временной области значений 464 шумоподавляющего фильтра. Кроме того, устройство 400 содержит фильтр 410, который регулируется в соответствии с представлением временной области значений 464 шумоподавляющего фильтра.

Фильтр 410 выполнен с возможностью выполнять свертку временной области аудиосигнала 110 и представления временной области значений 464 шумоподавляющего фильтра. Аналогично устройству 300 устройство 400 предоставляет возможность применять обнаружение 340 голосовой активности в анализаторе аудиосигнала на основе аудиосигнала 110 до фильтрации с помощью фильтра 410 или после фильтрации с помощью фильтра 410, что обозначено переключателем 320c. Кроме того, значение усиления может быть применено к аудиосигналу до фильтрации с помощью фильтра 410 или после фильтрации с помощью фильтра 410, что обозначено переключателями 330a и 330b. Устройство 400 с помощью его фильтрации на основе временной области предоставляет более низкую задержку по сравнению покадровой обработкой в частотной области, описанной для устройства 300.

Фиг. 5 иллюстрирует определение значения шумоподавляющего фильтра анализатора 130 аудиосигнала. На первом шаге 510 вычисляется частное от деления предопределенного значения 234 шумоподавления

на значение усиления

, и тем самым определяется минимальное значение 358c шумоподавляющего фильтра. На следующем этапе 520, каждое из неограниченных значений 356 шумоподавляющего фильтра

сравнивается с минимальным значением шумоподавления таким образом, что значения 356a неограниченных значений шумоподавляющего фильтра, которые меньше, чем минимальное значение 358c шумоподавляющего фильтра, устанавливаются равными минимальному значению 358c шумоподавляющего фильтра. Это может быть описано:

тем самым получаются значения 364 шумоподавляющего фильтра. Описанное нижнее ограничение значений шумоподавляющего фильтра может иметь преимущество при предотвращении искажений вследствие слишком агрессивного шумоподавления.

Фиг. 6 иллюстрирует выбор значения шумоподавляющего фильтра в анализаторе 130 аудиосигнала в соответствии с предпочтительным вариантом осуществления изобретения. На первом этапе 510 вычисляется частное от деления предопределенного значения 234 шумоподавления на значение усиления. На следующем этапе выполняется определение 620 минимума между частным от деления предопределенного значения 234 шумоподавления на значение усиления и предопределенным значением 234 шумоподавления. Тем самым можно избежать большого минимального значения 358c шумоподавляющего фильтра, когда значение усиления является малым благодаря тому, что определение минимума ограничивает сверху минимальное значение 358c шумоподавляющего фильтра предопределенным значением 234 шумоподавления. Другими словами, получается минимальное значение 358c шумоподавляющего фильтра, которое ограничено сверху предопределенным значением 234 шумоподавления. Выбор минимального значения 358c шумоподавляющего фильтра может быть получен в итоге в следующем уравнении:

На конечном этапе минимальное значение 358c шумоподавляющего фильтра сравнивается с неограниченными значениями 356a шумоподавляющего фильтра таким образом, что на основе определения 630 максимума получаются значения 364 шумоподавляющего фильтра, которые ограничены снизу минимальным значением 358c шумоподавляющего фильтра. Описанная оценка гарантирует шумоподавление, хотя обеспечено малое значение усиления

, и тем самым получается шумоподавление вне совокупного ослабления сигнала, достигнутого малым значением усиления.

На фиг. 7 описывается определение минимального значения шумоподавляющего фильтра, выполняемое в анализаторе 130 аудиосигнала, в соответствии с предпочтительным вариантом осуществления изобретения. На первом этапе вычисляется частное от деления предопределенного значения 234 шумоподавления на значение усиления. Частное от деления предопределенного значения 234 шумоподавления на значение усиления подвергается первому определению 710 максимума с обратным значением предопределенного предела 358a искажения. Результат первого определения максимума 710 подвергается первому определению минимума 720 относительно обратного значения для значения 705 усиления. Кроме того, результат первого определения 720 минимума подвергается второму определению 730 минимума относительно предопределенного значения 234 шумоподавления. Тем самым получается минимальное значение 358c шумоподавляющего фильтра как результат второго определения 730 минимума. Эта процедура дает в результате так называемое минимальное значение шумоподавляющего фильтра с ограничением искажения, например, предел ослабления шума с ограничением искажения. Чтобы лучше понять смысл ограничения, это может быть переформулировано следующим образом:

Правило обновления для предела ослабления шума, вычисленного, как описано выше, может быть сформулировано эквивалентно как

и проиллюстрировано на графике на фиг. 11 сплошной линией, обозначенной "с ограничением искажения".

Во втором определении 740 максимума минимальное значение 358c шумоподавляющего фильтра сравнивается с каждым индивидуальным неограниченным значением 356a шумоподавляющего фильтра таким образом, чтобы неограниченные значения шумоподавления, которые меньше, чем минимальное значение 358c шумоподавляющего фильтра, были установлены равными минимальному значению 358c шумоподавляющего фильтра, и тем самым получаются значения 364 шумоподавляющего фильтра. Описанное выше определение значения шумоподавляющего фильтра является предпочтительным для предотвращения искажений сигнала вследствие агрессивного шумоподавления.

Фиг. 8 иллюстрирует блок-схему устройства 800 в соответствии с предпочтительным вариантом осуществления изобретения, предоставляющего совместную обработку NR/AGC с автоматическим управлением усилением неограниченного предела ослабления шума

Устройство 800 содержит анализатор 830 аудиосигнала и фильтр 820. Кроме того, входной сигнал подается на фильтр 820 и обрабатывается посредством первой ступени 822 фильтра, чтобы применить шумоподавление. Кроме того, выход первой ступени 822 фильтра подается на анализатор 830 аудиосигнала и на вторую ступень 824 фильтра 820, где применяется значение усиления.

Кроме того, фильтр обеспечивает выходной сигнал. Выходной сигнал первой ступени 822 фильтра используется в анализаторе 830 аудиосигнала, чтобы вычислить обнаружение 840 голосовой активности. На основе результата обнаружения 840 голосовой активности принимается решение 842 либо переадресовать сигнал для вычисления уровня 842 сигнала в качестве характеристики аудиосигнала, которая используется для вычисления нового усиления AGC 844 на основе уровня сигнала и целевого уровня, либо сохранить старое усиление AGC 846. Решение о том, следует ли вычислять новое усиление или сохранить старое усиление, основано на присутствии речи в сигнале, обеспеченном детектору 840 голосовой активности.

Определенное значение усиления затем подается на вторую ступень 840 фильтра, где оно применяется к сигналу. Кроме того, значение усиления используется в анализаторе 830 аудиосигнала для вычисления неограниченного предела ослабления шума, т.е., минимального значения шумоподавляющего фильтра, на основе значения усиления и желаемого ослабления шума, т.е., предопределенного значения 234 шумоподавления. Кроме того, с использованием неограниченного предела ослабления шума, входного сигнала и усиления AGC определяются 862 значения шумоподавляющего фильтра, и они подаются на первую ступень 822 фильтра 820.

Когда AGC инициирует усиление сигнала (а не ослабление), также возможно применять усиление AGC только в периоды речи, аналогично фиг. 17. Усиление AGC тогда временно уменьшается или непосредственно устанавливается единичным во время речевых пауз. Поскольку усиление AGC принимается во внимание при вычислении предела ослабления шума

, гарантируется, что предотвращается эффект пульсации шума даже при том, что усиление AGC сильно колеблется. Описанный подход имеет преимущество в обеспечении шумоподавления даже для больших усилений AGC. Кроме того, описанный подход предотвращает эффект пульсации шума, от которого страдают другие подходы, что приводит к быстрому увеличению порога шумов, когда речь начинается, и быстрого уменьшения, когда речь прекращается.

Оценка значений 862 шумоподавляющего фильтра, например, может быть выполнена в соответствии с фиг. 5, или как описано на фиг. 6. Описанное устройство 800 подходит для достижения предопределенного шумоподавления и усиления или ослабления сигнала при необходимости, чтобы увеличить разборчивость.

Фиг. 9 иллюстрирует блок-схему устройства 900 в соответствии с предпочтительным вариантом осуществления изобретения, в котором выполняется совместная обработка NR и AGC с автоматическим управлением предела ослабления шума при ограничении искажения. В качестве альтернативы вычисление усиления AGC может быть выполнено на основе необработанного входного аудиосигнала, т.е., до применения шумоподавления. Устройство 900 содержит большую часть такой же функциональности, как и устройство 800 на фиг. 8, но для оценки значений 826 шумоподавляющего фильтра дополнительный параметр рассматривается как предел 358a искажения, или в более общем случае предопределенный предел искажения. Устройство 900 особенно подходит для предотвращения искажений сигнала, таких как искажение речи или музыкальные оттенки, вследствие агрессивного шумоподавления, внесенного малым минимальным значением шумоподавления, потенциально вызванным большим усилением AGC.

Фиг. 10 показывает диаграмму откликов системы, когда входной сигнал в систему характеризуется прежде всего как шум. Другими словами, показан полный отклик шума как функция усиления AGC, когда применяется NR и AGC с ограниченным или неограниченным пределом ослабления шума (сплошная и штриховая линии, соответственно).

Линия, обозначенная "Неограниченный", относится, например, к предпочтительному варианту осуществления, описанному в устройстве 800 как предпочтительном варианте осуществления изобретения, описанном на фиг. 8. Кроме того, линия "С ограничением искажения" относится, например, к устройству 900 как предпочтительному варианту осуществления изобретения, описанному на фиг. 9. Отклики системы на фиг. 10 отображены в логарифмических значениях в зависимости от значения усиления, заданного в логарифмических значениях. Фиг. 10 показывает, что для низких значений усиления (значения усиления, которые меньше 0 дБ) ослабление для совокупного отклика системы фактически реализуется вследствие совместного шумоподавления и управления усилением. Когда значение усиления находится между 0 дБ и произведением предопределенного значения шумоподавления и предела искажения, постоянное шумоподавление реализуется одинаково посредством неограниченного устройства и устройства с ограничением искажений, например, устройства 800 и устройства 900, соответственно. Когда значение усиления находится между произведением предопределенного значения шумоподавления и предопределенным пределом искажения, и предопределенным пределом искажения, совокупный отклик системы графика с ограниченным искажением увеличивается до 0 дБ, например, линейно. Кроме того, график "неограниченный" остается постоянным на уровне значения предопределенного значения шумоподавления, когда значение усиления находится между произведением предопределенного значения шумоподавления и предопределенного предела искажения и пределом искажения. Кроме того, график "с ограничением искажения" остается постоянным для значений усиления, которые больше, чем предопределенный предел искажения, на уровне 0 дБ. Кроме того, график "неограниченный" остается постоянным на уровне значения предопределенного значения шумоподавления для значений усиления, которые больше, чем предопределенный предел искажения. Другими словами, для случая с ограничением искажения совокупный отклик системы для аудиосигнала, который прежде всего характеризуется как шум, может быть записан как:

Таким образом, фиг. 10 с помощью графика "неограниченный", относящегося, например, к устройству 800, и с помощью графика "с ограниченным искажением", относящегося, например, к устройству 900, описывает, что шум не усиливается обоими устройствами в ситуациях, когда входной сигнал характеризуется только как шум. Тем самым можно избежать некомфортного усиления шума.

Фиг. 11 иллюстрирует график с двумя линиями, одна из которых обозначена как "неограниченный", и другая обозначена как "с ограничением искажения", которые относятся к минимальному значению шумоподавляющего фильтра, как описано на фиг. 6 или фиг. 7, соответственно. Другими словами, показан предел ослабления шума как функция усиления AGC для ограниченного и неограниченного случаев (сплошная и штриховая линии, соответственно).

Минимальное значение шумоподавляющего фильтра, например, может представлять собой предел ослабления шума, заданный здесь в логарифмических значениях. Кроме того, графики изображены в зависимости от значения усиления в логарифмических значениях. График "неограниченный" является постоянным на уровне предопределенного значения шумоподавления для значений усиления, которые меньше 0. Кроме того, график "неограниченный" уменьшается для значений усиления, которые больше 0 дБ, например, линейно. Кроме того, график "с ограничением искажения" является постоянным на уровне значения предопределенного значения шумоподавления для значений усиления, который меньше 0 дБ, и уменьшается, например, линейно, для значений усиления, которые больше 0 дБ и меньше, чем произведение предопределенного значения шумоподавления и предопределенного предела искажения, от предопределенного значения шумоподавления до обратного значения для предопределенного предела искажения. Кроме того, график "с ограничением искажения" остается постоянным на уровне обратного значения для предопределенного значения предела искажения для значений усиления между произведением предопределенного значения шумоподавления и предопределенного предела искажения и предопределенным пределом искажения. Кроме того, график "с ограничением искажения" уменьшается, например, линейно, для значений усиления, которые больше, чем предопределенное значение предела искажения. Для случая с ограничением искажения это может быть эквивалентно описано как:

Для сравнения неограниченный случай и ограниченный случай показаны как штриховая и сплошная линии, соответственно. Можно заметить, что предел ослабления шума с ограничением искажения ведет себя, как свой неограниченный аналог от низких до средних усилений AGC

. По мере увеличения усиления AGC,

уменьшается до

и остается на этом уровне пока

. Таким образом, ограничение искажения встречается только для усилений AGC до предела искажения

. Выше этого предел шумоподавления снова начинает уменьшаться. Это должно гарантировать, что шум не усиливается на выходе по сравнению с входом, что становится очевидным, если мы выводим совокупный отклик системы

, изображенный на фиг. 10, для шумовых сегментов, характеризуемых низким отношением SNR. В этом случае мы можем предположить, что фильтр NR

достигает своего минимума

. Следовательно, полный отклик шума может быть записан как:

где видно, что полный отклик шума увеличивается для растущих усилений AGC, но остается ниже 1, чтобы гарантировать, что шум не усиливается. Полный отклик шума представлен как функция усиления AGC на фиг. 10 как сплошная линия. Неограниченный отклик шума показан как штриховая линия для сравнения на фиг. 10.

Фиг. 11 иллюстрирует имеющую преимущество зависимость минимального значения шумоподавляющего фильтра от значения усиления, чтобы обеспечить гибкое шумоподавление в соответствии с приложенным усилением (AGC). Кроме того, график "с ограничением искажения" и "неограниченный" проявляют способность сохранять минимальное значение шумоподавляющего фильтра в значительной степени выше 0, таким образом предотвращая искажения сигнала.

Фиг. 12 иллюстрирует уровни сигнала после различной обработки, например, с помощью устройств 100, 300, 400, 800 или 900. Кроме того, изображены уровни речи и шума перед обработкой NR+AGC (1210) и после обработки NR/AGC (1220, 1230, 1240, 1250, 1260).

График 1210 представляет собой иллюстративный пример аудиосигнала, описывающего, например, аудиосигнал 110. Кроме того, график 1210 показывает постоянный уровень шума по времени и две фазы, в которых речь является активной. Когда речь активна, она имеет более высокий уровень сигнала, чем шум, что дает в результате положительное отношение сигнал/шум (SNR). Кроме того, график 1210 показывает обозначенный штриховой линией целевой уровень, на который, как предполагается, настраивается речевой сигнал, чтобы обеспечить комфортное восприятие прослушивания.

График 1220 показывает сигнал, изображенный на графике 1210, после его обработки посредством некоторого шумоподавления и управления усилением, например, некоторая базовая автоматическая схема управления усилением. Более высокое отношение SNR получается в периоды речевой активности. Кроме того, уровень шума также усиливается до целевого уровня, что приводит к некомфортному усилению шума.

График 1230 показывает выходные уровни сигнала, например, сигнала, описанного на графике 1210, после обработки, когда, например, автоматическое управление усилением для обработки использует обнаружение голосовой активности, чтобы помочь автоматическому обновлению управления усилением. Таким образом, в первом временном интервале уровень шума не усиливается до целевого уровня, усиление начинается только после того, как обнаружена речевая активность.

График 1240 показывает выходные уровни сигнала, например, входного сигнал, описанного на графике 1210, после обработки сигнала, когда обработка содержит, например, шумоподавление и автоматическое управление усилением, причем автоматическое управление усилением использует обнаружение голосовой активности, чтобы применить автоматическое управление усилением только к речевым фазам.

График 1250 показывает выходные уровни входного сигнала, например, изображенного на графике 1210, после обработки сигнала, когда обработка сигнала содержит, например, неограниченное шумоподавление и автоматическое управление усилением, как описано, например, на фиг. 8 для устройства 800. Таким образом, большое увеличение отношения SNR наблюдается в фазах речевой активности. Кроме того, уровень шума находится в значительной степени на постоянном уровне и сокращается по сравнению с графиком 1210.

График 1260 показывает выходные уровни, например, входного сигнала, изображенного на графике 1210, после обработки сигнала, причем обработка сигнала содержит совместное шумоподавление и автоматическое управление усилением с ограничением искажения, как описано, например, на фиг. 9 для устройства 900. Может быть получено большое увеличение отношения сигнал/шум по сравнению с графиком 1210. Кроме того, уровень шума находится в значительной степени на постоянном уровне. Кроме того, ограничение искажения предотвращает некомфортные искажения сигнала в выходе обработки.

Фиг. 13 иллюстрирует блок-схему системы 1300 двухсторонней полнодуплексной речевой связи в соответствии с предпочтительным вариантом осуществления изобретения. Система содержит сторону на ближнем конце, сторону на дальнем конце и передачу между ними. Кроме того, каждая из сторон на ближнем конце и на дальнем конце содержит громкоговоритель и микрофон, а также блок обработки аудиосигнала, причем блок обработки аудиосигнала может содержать одно из устройств 100, 300, 400, 800, 900.

На стороне на ближнем конце человек говорит в микрофон и принимает аудиоинформацию через громкоговоритель. Кроме того, на стороне на дальнем конце другой человек говорит в микрофон и принимает аудиоинформацию, переданную со стороны на ближнем конце, на громкоговоритель, потенциально одновременно, поскольку это полнодуплексная система. Система 1300 обеспечивает возможность комфортного восприятия прослушивания и улучшает разборчивость речи при речевой связи, осуществляемой между сторонами на дальнем конце и на ближнем конце. Особенно для сценария со свободными руками, когда расстояние между пользователем и микрофоном может изменяться, описанный вариант осуществления может быть подходящим для улучшения разборчивости.

Фиг. 14 иллюстрирует блок-схему цепи обработки сигналов, которая может использоваться в качестве стороны на дальнем конце или на ближнем конце системы речевой связи, например, системы 1300 речевой связи.

Фиг. 15 иллюстрирует блок-схему цепи обработки сигналов, она показывает базовую конфигурацию независимого применения обработки NR и AGC. Сначала входной сигнал подвергается шумоподавлению, которое основано на предопределенном значении шумоподавления, здесь на желаемом ослаблении шума, полученный в результате сигнал после шумоподавления используется для вычисления уровня сигнала и вычисления значения усиления, например, усиления автоматического управления усилением, на основе вычисленного уровня сигнала и предопределенного целевого уровня. На следующем этапе вычисленное значение усиления, например, вычисленное усиление AGC, применяется к сигналу после выполнения шумоподавления.

Автоматическое управление усилением может быть применено на выходе модуля шумоподавления, например, на покадровой основе с использованием процедуры с тремя этапами, изображенной на фиг. 15, и подробно описанной ниже:

1. Вычисление уровня: уровень сигнала, обозначенный

, вычисляется на входе AGC (здесь выход шумоподавления (NR)). Показателем для уровня сигнала может быть простое различие. В качестве альтернативы может быть применено спектральное взвешивание для подражания слуховой системе человека, что приводит к показателю воспринятого уровня громкости.

2. Вычисление усиления: скалярное усиление выводится посредством сравнения текущего уровня входного сигнала, обозначенного

, с предопределенным целевым речевым уровнем

, описанным для устройств 300 и 400 в качестве целевого значения. Это может быть достигнуто следующим образом:

(6)

где

- усиление AGC, вычисленное в кадре m, и

- коэффициент забывания, используемый для временного сглаживания усиления AGC (с

3. Умножение усиления: последний этап содержит умножение входного сигнала на усиление AGC. Это может быть сделано эквивалентно либо во временной области, либо в частотной области.

Описанная выше процедура приводит к усилению входного аудиосигнала, когда входной уровень AGC

ниже целевого уровня

. Напротив, применяется некоторое затухание, когда уровень сигнала

выше целевого уровня

. Следовательно, усиление AGC автоматически регулируется во времени и, таким образом, изменяется во времени. Кроме того, описанное вычисление усиления может частично или полностью использоваться в соответствующих модулях описанных устройств 300, 400, 800 и 900. Кроме того, для использования в упомянутых устройствах к описанным способам также могут быть применены модификации, например, на основе использования обнаружения голосовой активности. Кроме того, следует отметить отсутствие взаимодействия между модулями AGC и NR, что подчеркнуто штриховой горизонтальной линией на фиг. 15.

Когда, например, уровень фонового шума после фильтрации NR ниже, чем речевой уровень, недостаток этого подхода состоит в том, что он вызывает уменьшение измеренного уровня

на входе AGC, что в свою очередь вызывает увеличение усиления AGC во время речевых пауз, за которыми следует уменьшение усиления AGC, когда речь начинается. Это явление проиллюстрировано на фиг. 12, когда график 1210 показывает уровень речевых и шумовых компонентов во входном аудиосигнале (перед NR). График 1220 показывает уровень речевого и шумового компонентов после применения NR и AGC в соответствии с описанной выше процедурой. Несмотря на постоянные уровни речи и шума на входе, мы видим, что этот способ производит изменяющийся во времени уровень речи, что не является желаемым поведением для AGC. Кроме того, он производит изменяющийся во времени уровень шума, что приводит к очень неприятному эффекту пульсации шума в выходном сигнале. Чтобы решить эти проблемы, используется обнаружение голосовой активности (VAD), как разъяснено для фиг. 3, 4, 8, 9, 16 и 17.

Фиг. 16 иллюстрирует блок-схему устройства для обработки сигнала, она показывает отдельную обработку NR и AGC с обнаружением голосовой активности, инициирующей обновление усиления. На первом этапе входной сигнал подвергается шумоподавлению, которое основано на предопределенном значении шумоподавления, например, на желаемом ослаблении шума. На следующем этапе входной сигнал после того, как он подвергся шумоподавлению, используется для вычисления обнаружения голосовой активности, на котором основано принятие решения о речевой активности. Когда речь была обнаружена, уровень сигнала вычисляется на основе входного сигнала после шумоподавления. На следующем этапе, в предположении речевой активности, значение усиления, например, новое усиление автоматического управления усилением, определяется на основе вычисленного уровня сигнала и предопределенного целевого уровня. Когда речь не была обнаружена посредством обнаружения голосовой активности, используется значение усиления из предыдущего момента времени. На последнем этапе значение усиления, либо значение усиления из предыдущего момента времени, либо значение усиления, вычисленное из текущего момента времени, применяется к сигналу после шумоподавления, и тем самым обеспечивается выходной сигнал.

Чтобы избежать эффекта пульсации шума и обеспечить согласованный уровень речи, VAD (Voice Activity Detection; обнаружение голосовой активности) может быть применено, чтобы обойти обновление усиления во время речевых пауз, как показано на фиг. 16. При условии, что речевая активность может быть достоверно обнаружена, усиление AGC может тогда регулироваться только во время сегментов с активной речью, и во время речевых пауз усиление AGC сохраняется постоянным. Как изображено на графике 1230, этот способ производит согласованный уровень речи и предотвращает эффект пульсации шума (постоянный уровень шума после схождения). Однако это может вызвать значительное увеличение абсолютного уровня шума для больших усилений AGC, что становится особенно заметным во время речевых пауз на практике.

Фиг. 17 иллюстрирует блок-схему для обработки сигналов, которая является аналогом блок-схемы, описанной на фиг. 16, с отдельной обработкой NR и AGC c инициированием с помощью VAD всей обработки AGC. Кроме того, блок-схема на фиг. 17 описывает установку значения усиления равной 1, когда речь не была обнаружена. Чтобы отменить усиление шума во время речевых пауз, как изображено на графике 1230, усиление AGC применяется только в периоды речи, как представлено на фиг. 17 (применение единичного значения во время речевых пауз эквивалентно отсутствию применения усиления AGC). Этот подход обеспечивает низкий уровень речи и предотвращает усиление шума во время речевых пауз. Однако он снова приводит к изменяющемуся во времени масштабированию шума (см. график 1240), который воспринимается как раздражающий эффект пульсации шума на практике.

Фиг. 18 иллюстрирует сторону на ближнем конце или сторону на дальнем конце системы связи в соответствии с предпочтительным вариантом осуществления изобретения, например, системы речевой связи 1300, описанной на в фиг. 13. Сторона на дальнем конце или на ближнем конце могут быть реализованы с аналогичной структурой. Таким образом, описана только одна сторона, но вся функциональность также может быть доступна на другой стороне.

Рассматриваемая сторона содержит громкоговоритель 1810 для предоставления звукового информационного содержания слушателю и микрофон 1820 для улавливания желаемого сигнала, например, речевого сигнал от говорящего человека. Кроме того, система 1830 управления эхом подавляет эхо в сигнале микрофона на основе сигнала громкоговорителей. После управления 1830 эхом совместное шумоподавление и управление усилением 1840 обрабатывает сигнал. Совместное шумоподавление и управление усилением 1840 могут быть реализованы, например, посредством устройств 100, 300, 400, 800 и 900.

Кроме того, система 1850 комфортного шума применяет комфортный шум к сигналу после совместного шумоподавления и управления усилением 1840, чтобы обеспечить комфортное восприятие прослушивания пользователю на дальнем конце, например, когда желаемый компонент сигнала не присутствует в полученном сигнале микрофона (т.е., активность только на дальнем конце). Таким образом, система, описанная на фиг. 18, предоставляет обработку сигнала таким образом, чтобы сигнал, который, например, передается стороне на дальнем конце, предоставлял разборчивый речевой компонент переданного сигнала и комфортное восприятие прослушивания для пользователя на стороне на дальнем конце.

Фиг. 19 иллюстрирует блок-схему стороны на дальнем конце системы связи в соответствии с предпочтительным вариантом осуществления изобретения. Система на фиг. 19 содержит громкоговоритель 1810, выполненный с возможностью предоставлять звуковое информационное содержание слушателю, и микрофон 1820, выполненный с возможностью обеспечивать регистрацию аудиосигнала, который, например, содержит речевое информационное содержание. Кроме того, система, описанная на фиг. 19, содержит совместное шумоподавление и управление усилением 1840 для сигнала, предоставленного громкоговорителю 1810. Кроме того, сигнал, зарегистрированный микрофоном 1820, подвергается управлению 1830 эхом, которое основано на сигнале, предоставленном громкоговорителю 1810, и систему 1850 комфортного шума. Управление 1830 эхом и система 1850 комфортного шума содержат ту же самую функциональность, которая описана на фиг. 18. Кроме того, совместное шумоподавление и управление усилением 1840, например, могут быть реализованы посредством устройств 100, 300, 400, 800 или 900. Таким образом, система, описанная на фиг. 19, предоставляет разборчивый речевой сигнал, когда аудиосигнал, предоставленный громкоговорителю, содержит речевой компонент. Кроме того, благодаря компоненту шумоподавления реализовано комфортное восприятие прослушивания.

Дополнительные варианты осуществления полагаются на обработку аудиосигнала в последовательности кадров. Анализатор (130; 830; 930) аудиосигнала выполнен с возможностью анализировать аудиосигнал в последовательности кадров, содержащей первый кадр и второй кадр, следующий за первым кадром во времени, определять для первого кадра первое множество значений шумоподавления и для второго кадра второе множество значений шумоподавления. Анализатор выполнен с возможностью определять первое множество значений шумоподавляющего фильтра таким образом, что значения шумоподавляющего фильтра из первого множества значений шумоподавляющего фильтра больше или равны первому минимальному значению (130b'; 240; 358c, 360a) шумоподавляющего фильтра, определенному для первого кадра, и таким образом, что первое минимальное значение шумоподавляющего фильтра зависит от первой характеристики первого кадра аудиосигнала (130c'). Анализатор, кроме того, выполнен с возможностью определять второе множество значений шумоподавляющего фильтра таким образом, что значения шумоподавляющего фильтра из второго множества значений шумоподавляющего фильтра больше или равны второму минимальному значению (130b'; 240; 358c, 360a) шумоподавляющего фильтра, определенному для второго кадра, и таким образом, что второе минимальное значение шумоподавляющего фильтра зависит от второй характеристики второго кадра аудиосигнала (130c'). Фильтр (120; 310; 410; 820) выполнен с возможностью фильтрации аудиосигнала в последовательности кадров, причем первый фильтр для первого кадра регулируется на основе первого множества значений шумоподавления, и второй фильтр для второго кадра регулируется на основе второго множества значений шумоподавления. Фильтр (120; 310; 410; 820), кроме того, выполнен с возможностью фильтровать первый кадр аудиосигнала с помощью первого фильтра и фильтровать второй кадр аудиосигнала с помощью второго фильтра.

Итак, некоторые варианты осуществления настоящих изобретений могут быть кратко изложены в списке. Предпочтительный вариант осуществления сначала применяет шумоподавление (NR) и содержит следующие этапы:

1. Принять входной аудиосигнал.

2. Определить предел ослабления шума на основе усиления AGC, определенного в предыдущем кадре, желаемую величину ослабления шума и факультативно также на основе предела искажения.

3. Определить фильтр шумоподавления на основе входного аудиосигнала и предела ослабления шума.

4. Определить усиление AGC на основе целевого уровня сигнала, факультативной информации голосовой активности и аудиосигнала

a) аудиосигнал является входным аудиосигналом, или

b) аудиосигнал является аудиосигналом с шумоподавлением, полученным посредством применения фильтра шумоподавления ко входному аудиосигналу,

факультативная информация голосовой активности используется, чтобы факультативно уменьшить усиление AGC во время речевых пауз.

5. Сформировать выходной аудиосигнал посредством применения фильтра шумоподавления и усиления AGC, полученных в предыдущем кадре, ко входному аудиосигналу.

Кроме того, другой предпочтительный вариант осуществления в соответствии с изобретением характеризуется применением AGC сначала и выполняется в следующим образом:

1. Принять входной аудиосигнал.

2. Определить усиление AGC на основе целевого уровня сигнала, факультативной информации голосовой активности и входного аудиосигнала,

3. Определить предел ослабления шума

a) на основе желаемой величины ослабления шума и текущего усиления AGC, или

b) на основе желаемой величины ослабления шума, предела искажения и текущего усиления AGC.

4. Определить фильтр шумоподавления на основе входного аудиосигнала и предела ослабления шума.

5. Сформировать выходной аудиосигнал посредством применения фильтра шумоподавления и текущего усиления AGC ко входному аудиосигналу.

Хотя настоящее изобретение было описано в контексте блок-схем, в которых блоки представляют фактические или логические аппаратные компоненты, настоящее изобретение также может быть реализовано посредством реализованного с помощью компьютера способа. В последнем случае блоки представляют соответствующие этапы способа, причем эти этапы обозначают функциональности, выполняемые соответствующими логическими или физическими аппаратными блоками.

Хотя некоторые аспекты были описаны в контексте устройства, понятно, что эти аспекты также представляют описание соответствующего способа, в котором блок или устройство соответствуют этапу способа или признаку этапа способа. Аналогичным образом, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента или признака соответствующего устройства. Некоторые или все этапы способа могут быть исполнены посредством (или с использованием) аппаратного устройства, например, микропроцессора, программируемого компьютера или электронной схемы. В некоторых вариантах осуществления один или более самых важных этапов способа могут быть исполнены таким устройством.

В зависимости от конкретных требований реализации варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может быть выполнена с использованием цифрового запоминающего носителя, например гибкого диска, DVD, Blu-Ray, CD, ПЗУ (ROM), ППЗУ (PROM), СППЗУ (EPROM), ЭСППЗУ (EEPROM) или флэш-памяти, имеющего сохраненные на нем электронно-читаемые управляющие сигналы, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой таким образом, что выполняется соответствующий способ. Таким образом, цифровой запоминающий носитель может быть машиночитаемым.

Некоторые варианты осуществления в соответствии с изобретением содержат носитель данных, имеющий электронно-читаемые управляющие сигналы, которые способны взаимодействовать с программируемой компьютерной системой таким образом, что выполняется один из способов, описанных в настоящем документе.

В целом варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, программный код выполнен с возможностью выполнять один из способов, когда компьютерный программный продукт исполняется на компьютере. Программный код программы, например, может быть сохранен на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для выполнения одного из способов, описанных в настоящем документе, сохраненную на машиночитаемом носителе.

Другими словами, вариант осуществления способа изобретения, таким образом, является компьютерной программой, имеющей программный код для выполнения одного из способов, описанных в настоящем документе, когда компьютерная программа работает на компьютере.

Дополнительный вариант осуществления способов изобретения, таким образом, является носителем информации (или энергонезависимым запоминающим носителем, таким как цифровой запоминающий носитель или машиночитаемый носитель), содержащим записанную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Носитель данных, цифровой запоминающий носитель или носитель с записанными данными обычно являются материальными и/или энергонезависимыми.

Дополнительный вариант осуществления способа изобретения, таким образом, является потоком данных или последовательностью сигналов, представляющими компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Поток данных или последовательность сигналов, например, могут быть выполнены с возможностью быть переданными через соединение передачи данных, например, через Интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью выполнять один из способов, описанных в настоящем документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе.

Дополнительный вариант осуществления в соответствии с изобретением содержит устройство или систему, выполненные с возможностью переносить (например, в электронном виде или оптически) компьютерную программу для выполнения одного из способов, описанных в настоящем документе, к приемнику. Приемник может, например, представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система могут, например, содержать файловый сервер для переноса компьютерной программы на приемник.

В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторой или всей функциональности способов, описанных в настоящем документе. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы выполнить один из способов, описанных в настоящем документе. В общем случае способы предпочтительно выполняются любым аппаратным устройством.

Описанные выше варианты осуществления являются лишь иллюстративными для принципов настоящего изобретения. Подразумевается, что модификации и изменения описанных здесь конфигураций и подробностей, будут очевидны для специалистов в области техники. Таким образом, изобретение ограничено только объемом следующей формулы изобретения, а не конкретными деталями, представленными посредством описания и объяснения вариантов осуществления настоящего изобретения.

ЛИТЕРАТУРА

[1] E. Hänsler and G. Schmidt: ʺHands-free telephones -Joint Control of Echo Cancellation and Postfilteringʺ, Signal Processing, Volume: 80, Issue: 11, pp. 2295-2305, Sep. 2000.

[2] F. Küch, E. Mabande and G. Enzner, "State-space architecture of the partitioned-block-based acoustic echo controller," in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), May 2014.

[3] A. Favrot, C. Faller, M. Kallinger, F. Küch, and M. Schmidt, ʺAcoustic Echo Control Based on Temporal Fluctuations of Short-Time Spectra,ʺ in Proc. International Workshop on Acoustic Echo and Noise Control (IWAENC), Sept. 2008.

[4] Y. Ephraim, D. Malah, ʺSpeech enhancement using a minimum mean-square error short-time spectral amplitude estimator,ʺ IEEE Trans. Acoust. Speech Signal Process, Vol. 32, pp. 1109-1121, Dec. 1984.

[5] Guangji Shi and Changxue Ma, ʺSubband Comfort Noise Insertion for an Acoustic Echo Suppressor,ʺ in Proc. 133rd Audio Engineering Society Convention, Oct. 2012.

[6] M. Matsubara, K. Nomoto. "Audio signal processing device and noise suppression processing method in automatic gain control device." Patent publication No. US 2008/0147387 A1.

Реферат

Изобретение относится к области вычислительной техники для обработки аудиосигналов. Технический результат заключается в повышении качества обработки аудиосигналов. Технический результат достигается за счет выполнения анализа аудиосигнала, чтобы определить множество значений шумоподавляющего фильтра для множества частотных полос аудиосигнала; определения значения шумоподавляющего фильтра таким образом, что значение шумоподавляющего фильтра больше или равно минимальному значению шумоподавляющего фильтра, и таким образом, что минимальное значение шумоподавляющего фильтра зависит от характеристики аудиосигнала; и фильтрации аудиосигнала на основе значений шумоподавляющего фильтра. 3 н. и 13 з.п. ф-лы, 19 ил.

Формула

1. Устройство (100; 300; 400; 800; 900) для обработки аудиосигнала (110), содержащее:

анализатор (130; 830; 930) аудиосигнала для анализа аудиосигнала, чтобы определить множество значений (260; 364, 364a-c) шумоподавляющего фильтра для множества частотных полос аудиосигнала (215; 354), причем анализатор (130; 830; 930) аудиосигнала выполнен с возможностью определять значения шумоподавляющего фильтра таким образом, что значение шумоподавляющего фильтра больше или равно минимальному значению (130b'; 240; 358c, 360a) шумоподавляющего фильтра, и таким образом, что минимальное значение шумоподавляющего фильтра зависит от характеристики аудиосигнала (130c'); и

фильтр (120; 310; 410; 820) для фильтрации аудиосигнала, причем фильтр регулируется на основе значений шумоподавляющего фильтра,

при этом анализатор (130; 830; 930) аудиосигнала выполнен с возможностью вычислять значение усиления из кадра аудиосигнала в качестве характеристики аудиосигнала, и анализатор (130; 830; 930) аудиосигнала выполнен с возможностью вычислять минимальное значение шумоподавляющего фильтра таким образом, что минимальное значение шумоподавляющего фильтра уменьшается с увеличением значения усиления, или

анализатор (130; 830; 930) аудиосигнала выполнен с возможностью вычислять информацию амплитуды аудиосигнала и значение усиления в качестве характеристики аудиосигнала на основе информации амплитуды и предопределенного целевого значения, на которое аудиосигнал настраивается посредством значения усиления.

2. Устройство по п. 1, в котором анализатор (130; 830; 930) аудиосигнала выполнен с возможностью определять значения шумоподавляющего фильтра с использованием определения максимума на основе множества неограниченных значений шумоподавляющего фильтра (220; 356a) и минимального значения шумоподавляющего фильтра, причем минимальное значение шумоподавляющего фильтра является одинаковым для множества частотных полос аудиосигнала.

3. Устройство по п. 1, в котором анализатор (130; 830; 930) аудиосигнала выполнен с возможностью вычислять минимальное значение шумоподавляющего фильтра на основе предопределенного значения шумоподавления и значения усиления.

4. Устройство по п. 1, в котором анализатор (130; 830; 930) аудиосигнала выполнен с возможностью вычислять минимальное значение шумоподавляющего фильтра с использованием определения минимума в зависимости от предопределенного значения шумоподавления и частного от деления предопределенного значения шумоподавления на значение усиления.

5. Устройство по п. 1, в котором анализатор (130; 830; 930) аудиосигнала выполнен с возможностью определять минимальное значение шумоподавляющего фильтра в соответствии с первым определением минимума, причем первое определение минимума зависит от предопределенного значения шумоподавления и результата второго определения минимума, при этом результат второго определения минимума зависит от обратного значения усиления и результата определения максимума, причем результат определения максимума зависит от обратного предопределенного предельного значения искажения и частного от деления предопределенного значения шумоподавления на значение усиления.

6. Устройство по п. 1, в котором анализатор (130; 830; 930) аудиосигнала выполнен с возможностью анализировать частотную полосу из множества частотных полос аудиосигнала, чтобы определить, имеет ли частотная полоса первую характеристику аудиосигнала или вторую характеристику аудиосигнала, причем первая характеристика отличается от второй характеристики, и определять значения шумоподавляющего фильтра, когда вторая характеристика была определена для частотной полосы,

таким образом, что значения шумоподавляющего фильтра равны произведению предопределенного значения шумоподавления и значения усиления, когда значение усиления находится между 0 и 1, или

таким образом, что значения шумоподавляющего фильтра равны предопределенному значению шумоподавления, когда значение усиления находится между 1 и произведением предопределенного значения шумоподавления и предопределенного предела искажения, или

таким образом, что значения шумоподавляющего фильтра равны частному от деления значения усиления на предопределенный предел искажения, когда значение усиления находится между произведением предопределенного значения шумоподавления и предопределенного предела искажения, или

таким образом, что значения шумоподавляющего фильтра равны 1, когда значение усиления больше, чем предопределенный предел искажения.

7. Устройство по п. 1, в котором анализатор (130; 830; 930) аудиосигнала выполнен с возможностью вычислять для первого кадра аудиосигнала первое значение усиления, дающее в результате первое минимальное значение шумоподавления,

в котором анализатор (130; 830; 930) аудиосигнала выполнен с возможностью вычислять для второго кадра аудиосигнала второе значение усиления, дающее в результате несглаженное второе минимальное значение шумоподавляющего фильтра, причем второй кадр следует за первым кадром во времени,

в котором анализатор (130; 830; 930) аудиосигнала выполнен с возможностью вычислять сглаженное минимальное значение (360a) шумоподавляющего фильтра для второго кадра с использованием несглаженного второго минимального значения (358c) шумоподавляющего фильтра и первого минимального значения шумоподавляющего фильтра.

8. Устройство по п. 1, при этом устройство содержит первый частотно-временной конвертер (320a), обеспечивающий представление в частотной области аудиосигнала, обеспечивающего множество частотных полос аудиосигнала, и

при этом анализатор (130; 830; 930) аудиосигнала выполнен с возможностью вычислять значение шумоподавляющего фильтра для частотной полосы из множества частотных полос аудиосигнала на основе:

одной или более частотных полос из множества частотных полос аудиосигнала и

минимального значения шумоподавления, причем минимальное значение шумоподавляющего фильтра основано на:

предопределенном значении шумоподавления, которое является одинаковым для каждой частотной полосы из множества частотных полос аудиосигнала, или предопределенного предела искажения, который является одинаковым для множества частотных полос аудиосигнала, и

значении, выведенном из характеристики аудиосигнала, каковое значение является одинаковым для каждой частотной полосы из множества частотных полос аудиосигнала.

9. Устройство по п. 1, в котором анализатор (130; 830; 930) аудиосигнала выполнен с возможностью фильтровать аудиосигнал с помощью психоакустического фильтра (342) перед вычислением информации амплитуды, причем психоакустический фильтр выполнен содержащим первое значение ослабления для первого частотного диапазона, второе значение ослабления для второго частотного диапазона и третье значение ослабления для третьего частотного диапазона, при этом данный фильтр выполнен таким образом, что второй частотный диапазон находится между первым частотным диапазоном и третьим частотным диапазоном, причем данный фильтр выполнен таким образом, что второе значение ослабления меньше, чем первое значение ослабления и третье значение ослабления.

10. Устройство по п. 1, в котором анализатор (130; 830; 930) аудиосигнала содержит блок (340) обнаружения голосовой активности, обеспечивающий первую информацию голосовой активности первого кадра аудиосигнала и вторую информацию голосовой активности второго кадра аудиосигнала, и блок (346) памяти для хранения предыдущего значения усиления, и

в котором анализатор (130; 830; 930) аудиосигнала выполнен с возможностью:

оценивать значение усиления на основе второго кадра аудиосигнала, в котором был обнаружен голос в соответствии со второй информацией голосовой активности, или

поддерживать значение усиления первого кадра, если во втором кадре не была обнаружена голосовая активность в соответствии со второй информацией голосовой активности, когда голос был обнаружен в первом кадре на основе первой информации о голосовой активности,

причем второй кадр следует за первым кадром во времени.

11. Устройство по п. 1, в котором анализатор (130; 830; 930) аудиосигнала выполнен с возможностью вычислять минимальное значение шумоподавления для текущего кадра на основе значения, выведенного из характеристики аудиосигнала, вычисленной для текущего кадра,

в котором анализатор (130; 830; 930) аудиосигнала выполнен с возможностью анализировать аудиосигнал для определения значения, выведенного из характеристики аудиосигнала,

в котором фильтр содержит первую ступень фильтра и вторую ступень фильтра,

при этом первая ступень фильтра регулируется с использованием значения, выведенного из характеристики аудиосигнала, и

при этом вторая ступень фильтра регулируется в соответствии со значениями шумоподавляющего фильтра.

12. Устройство по п. 1, в котором анализатор (130; 830; 930) аудиосигнала выполнен с возможностью вычислять минимальное значение шумоподавления для второго кадра на основе значения, выведенного из характеристики аудиосигнала, вычисленной для первого кадра, и

в котором фильтр содержит первую ступень (822) фильтра и вторую ступень (824) фильтра,

при этом первая ступень фильтра регулируется в соответствии со значениями шумоподавляющего фильтра, и

при этом вторая ступень фильтра регулируется с использованием значения, выведенного из характеристики аудиосигнала, и

в котором анализатор (130; 830; 930) аудиосигнала выполнен с возможностью анализировать выход первой ступени фильтра для определения значения, выведенного из характеристики аудиосигнала, и

причем второй кадр следует за первым кадром во времени.

13. Устройство по п. 1, в котором анализатор (130; 830; 930) аудиосигнала выполнен с возможностью определять значение усиления на основе информации голосовой активности и аудиосигнала, или информации голосовой активности и аудиосигнала, отфильтрованного посредством значений шумоподавляющего фильтра, и

в котором анализатор (130; 830; 930) аудиосигнала выполнен с возможностью получать информацию голосовой активности на основе аудиосигнала, или анализатор (130; 830; 930) аудиосигнала выполнен с возможностью получать информацию голосовой активности на основе аудиосигнала, отфильтрованного посредством фильтра, или анализатор (130; 830; 930) аудиосигнала выполнен таким образом, что информация голосовой активности, указывающая отсутствие речи, используется для уменьшения значения усиления.

14. Устройство по п. 1,

в котором анализатор (130; 830; 930) аудиосигнала выполнен с возможностью анализировать аудиосигнал в последовательности кадров, содержащих первый кадр и второй кадр, следующий за первым кадром во времени, чтобы определять для первого кадра первое множество значений шумоподавления и для второго кадра второе множество значений шумоподавления,

в котором анализатор (130; 830; 930) выполнен с возможностью определять первое множество значений шумоподавляющего фильтра таким образом, что значения шумоподавляющего фильтра из первого множества значений шумоподавляющего фильтра больше или равны первому минимальному значению (130b'; 240; 358c, 360a) шумоподавляющего фильтра, определенному для первого кадра, и таким образом, что первое минимальное значение шумоподавляющего фильтра зависит от первой характеристики первого кадра аудиосигнала (130c');

в котором анализатор (130; 830; 930) выполнен с возможностью определять второе множество значений шумоподавляющего фильтра таким образом, что значения шумоподавляющего фильтра из второго множества значений шумоподавляющего фильтра больше или равны второму минимальному значению (130b'; 240; 358c, 360a) шумоподавляющего фильтра, определенному для второго кадра, и таким образом, что второе минимальное значение шумоподавляющего фильтра зависит от второй характеристики второго кадра аудиосигнала (130c'); и

в котором фильтр (120; 310; 410; 820) выполнен с возможностью фильтрации аудиосигнала в последовательности кадров, причем первый фильтр для первого кадра регулируется на основе первого множества значений шумоподавления, при этом второй фильтр для второго кадра регулируется на основе второго множества значений шумоподавления, и

в котором фильтр (120; 310; 410; 820) выполнен с возможностью фильтровать первый кадр аудиосигнала с помощью первого фильтра и фильтровать второй кадр аудиосигнала с помощью второго фильтра.

15. Способ обработки аудиосигнала, содержащий этапы, на которых:

выполняют анализ аудиосигнала, чтобы определить множество значений шумоподавляющего фильтра для множества частотных полос аудиосигнала;

определяют значения шумоподавляющего фильтра таким образом, что значение шумоподавляющего фильтра больше или равно минимальному значению шумоподавляющего фильтра, и таким образом, что минимальное значение шумоподавляющего фильтра зависит от характеристики аудиосигнала; и

фильтруют аудиосигнал на основе значений шумоподавляющего фильтра,

при этом упомянутый анализ содержит этап, на котором вычисляют значение усиления из кадра аудиосигнала в качестве характеристики аудиосигнала и вычисляют минимальное значение шумоподавляющего фильтра таким образом, что минимальное значение шумоподавляющего фильтра уменьшается с увеличением значения усиления, или

упомянутый анализ содержит этап, на котором вычисляют информацию амплитуды аудиосигнала и значение усиления в качестве характеристики аудиосигнала на основе информации амплитуды и предопределенного целевого значения, на которое аудиосигнал настраивается посредством значения усиления.

16. Носитель информации, на котором сохранена компьютерная программа с программным кодом для выполнения способа по п. 15, когда компьютерная программа исполняется на компьютере или микроконтроллере.

Документы, цитированные в отчёте о поиске

Повышение разборчивости речи с помощью четкости голоса

Авторы

ЛОМБАРД, Антони (DE)

БИРЦЕР, Бернхард (DE)

МАНЕ, Дирк (DE)

МАБАНДЕ, Эдвин (DE)

КЮХ, Фабиан (DE)

ХАБЕТС, Эмануэль (DE)

АННИБАЛЕ, Паоло (DE)

LOMBARD ANTHONY

BIRZER BERNHARD

MAHNE DIRK

MABANDE EDWIN

KUECH FABIAN

HABETS EMANUEL

ANNIBALE PAOLO

LOMBARD, Anthony

BIRZER, Bernhard

MAHNE, Dirk

MABANDE, Edwin

KUECH, Fabian

HABETS, Emanuel

ANNIBALE, Paolo

Патентообладатели

FRAUNHOFER GES FORSCHUNG

FRAUNHOFER-GESELLSCHAFT ZUR FOERDERUNG DER ANGEWANDTEN FORSCHUNG E.V.

Заявители