Код документа: RU2163032C2
Изобретение касается систем шумопонижения, а конкретно, адаптивной системы повышения разборчивости речи для использования в переносных цифровых радиотелефонах.
УРОВЕНЬ ТЕХНИКИ
Индустрия сотовых телефонов
достигла феноменального успеха в области их коммерческой эксплуатации как в США, так и в остальном мире. Для услуг сотовой связи в областях крупных мегаполисов требуется увеличение пропускной
способности существующих систем. Если предположить, что тенденция к увеличению пропускной способности будет сохраняться, тогда сотовая связь сможет достигнуть даже самых маленьких сельских
уголков.
Следовательно, требуется увеличение пропускной способности систем сотовой связи при сохранении высокого качества услуг по приемлемой цене. Один из важных этапов в направлении увеличения пропускной способности системы заключается в преобразовании системы сотовой связи из системы с передачей аналоговых сигналов в систему передачи цифровых сигналов. Это преобразование также важно и по той причине, что первое поколение персональных коммуникационных сетей (ПКС), использующих дешевые, карманного размера радиотелефоны, которые можно легко переносить и использовать для отправления вызовов или приема вызовов дома, в офисе, на улице, в автомобиле и т. д., вероятно будут снабжены носителями сотовой связи, использующими инфраструктуру следующего поколения сотовой связи - цифровой.
Системы цифровой связи обладают преимуществом в том, что имеются общие технологии по обработке цифровых сигналов. Обработка цифровых сигналов сводится в основном к математическим и другим манипуляциям с сигналами, преобразованными в цифровой вид. Например, после преобразования (представления в цифровом виде) аналогового сигнала в цифровой вид этот цифровой сигнал может быть подвергнут фильтрации, усилен и ослаблен с помощью простых математических программ в процессоре цифровых сигналов (ПЦС). Обычно ПЦС изготовляются в виде высокоскоростных интегральных схем, которые позволяют выполнять операции по обработке данных, по существу, в реальном масштабе времени. ПЦС могут также использоваться для снижения скорости передачи двоичных данных, соответствующих речи, преобразованной в цифровой вид, что обеспечивает пониженное спектральное заполнение передаваемых радиосигналов и повышенную пропускную способность системы. Например, если речевые сигналы преобразуются в цифровой вид с помощью 14-битовой линейной импульсно-кодовой модуляции (ИКМ) и стробируются с частотой 8 кГц, то получается скорость передачи последовательных двоичных данных 112 кбит/с. Более того, за счет использования математической возможности по выявлению дублирований (избыточностей) и других характеристик человеческой речи, которые могут быть предсказаны, методы кодирования голоса могут использоваться для сжатия скорости передачи последовательных двоичных данных от 112 кбит/с до 7,95 кбит/с, т.е. для получения снижения скорости передачи двоичных данных в соотношении 14:1. Пониженные скорости передачи преобразуются в более подходящую частотную полосу.
Один из известных методов сжатия речи, адаптированный в США TIA для использования в качестве цифрового стандарта для второго поколения сотовых телефонных систем (т.е. IS-54), - это кодирование с возбуждаемым линейным предсказанием с вектором из справочного указателя (КВЛПВС). К сожалению, когда аудиосигналы, содержащие речь, смешенную с окружающим шумом, имеющим высокий уровень (особенно "цветной шум"), закодированы/сжаты с использованием КВЛПВС, частью полученного результата могут оказаться нежелательные характеристики аудиосигнала. Например, если цифровой мобильный телефон используется при наличии окружающего шума (например, в движущемся автомобиле), окружающий шум и сама речь сжимаются с помощью алгоритма кодирования КВЛПВС и передаются на базовую станцию, где сжатый сигнал декодируется и восстанавливается в звуковую речь. Когда фоновый шум восстанавливается в аналоговый формат, то в речь время от времени вводится нежелательное, звуковое искажение из-за шума. Это искажение очень раздражает обычного слушателя.
Это искажение вызвано в основном окружающей средой, в которой используются мобильные телефоны. Мобильные телефоны, как правило, используются внутри транспортного средства, где часто окружающий шум производится двигателем автомобиля и окружающими транспортными средствами. Этот окружающий шум внутри автомобиля обычно сосредотачивается в диапазоне низких звуковых частот, а величина шума может изменяться вследствие таких факторов, как скорость и ускорение автомобиля, а также количество транспорта вокруг автомобиля. Этот тип низкочастотного шума также оказывает значительное влияние на снижение разборчивости речи, когда говорящий человек находится в автомобиле. Снижение разборчивости речи, обусловленное низкочастотным шумом, может быть особенно значительным в системах связи, содержащих вокодер КВЛПВС, но оно также может возникнуть и в системах связи, которые не содержат вокодер КВЛПВС.
Степень влияния окружающего шума на мобильный телефон может также зависеть от того, каким образом используется мобильный телефон. В частности, мобильный телефон может использоваться в режиме "свободных рук", когда пользователь телефона говорит по телефону, а мобильный телефон находится в подвешенном состоянии. В этом случае пользователь телефона свободными руками может управлять машиной, но при этом увеличивается расстояние, которое должны преодолеть звуки, соответствующие словам пользователя телефона, для того чтобы достигнуть входа микрофона мобильного телефона. Это увеличенное расстояние между пользователем и мобильным телефоном наряду с изменяющимся окружающим шумом может привести к тому, что на шум будет приходится значительная часть спектральной энергии от полной мощности аудиосигнала, поступающего на вход мобильного телефона.
Известные из уровня техники решения, раскрытые в патентных заявках EP 0645756, EP 0558312, EP 0665530, DE 4012349, в патентах США 4811404, 4461025 и 5251263, - все они предлагают использовать метод фильтрации нежелательных составляющих сигнала.
Теоретически для фильтрации фонового шума, закодированного методом КВЛПВС, могут быть применены различные алгоритмы обработки сигнала с помощью использования процессоров цифровых сигналов. Однако такие решения часто требуют огромных объемов обработки цифровых сигналов, измеряемых в единицах миллионов операций в секунду (млн. оп./с - МОС), на что потребляются дорогие по стоимости время обработки, объем памяти и энергетические затраты. Однако каждое из этих средств, требующихся для обработки сигналов, в портативных радиотелефонах ограничено. Следовательно, простое увеличение нагрузки по обработке сигналов в ПЦС не является оптимальным решением для сведения к минимуму фонового шума, закодированного методом КВЛПВС или другим образом.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
В настоящем изобретении предложена адаптивная система снижения шума, которая уменьшает нежелательное присутствие
закодированного фонового шума,
при этом оказывая минимальное отрицательное влияние на качество закодированной речи и минимально увеличивается потребление ресурсов процессора цифровых сигналов. Способ
и система, предложенные в
настоящем изобретении, увеличивают разборчивость речи в аудиосигнале, имеющем цифровой вид, за счет пропускания кадров аудиосигнала, преобразованного в цифровой вид, через
схему фильтра. Схема фильтра
функционирует как регулируемый высокочастотный фильтр, который фильтрует участок цифрового сигнала в области низких звуковых частот и пропускает участок цифрового сигнала,
попадающий в области более
высоких частот. Поскольку шум в автомобиле преимущественно соответствует диапазону низких звуковых частот и только относительно небольшая часть разборчивой речи попадает в
этот низкочастотный диапазон,
схема фильтра отфильтровывает большой сегмент шума в цифровом аудиосигнале и при этом отфильтровываются только мало значимые сегменты самой речи. Это приводит к тому,
что удаляется относительно
большая часть энергии шума по сравнению с удаляемой частью энергии речи. За счет адаптивной регулировки схемы фильтра и отбора ее частотной характеристики ограничивается
объем отфильтрованной речи и в
результате имеется минимальное отрицательное влияние фильтрации на разборчивость речи, полученной при передаче ее по радио(телефону).
Схема управления фильтром используется для регулировки схемы фильтра таким образом, чтобы схема фильтра имела различные частотные характеристики в зависимости от оценки шума и/или спектрального профиля, соответствующего шуму в аудиосигнале. Оценка шума и/или спектральный профиль подстраиваются для цифрового сигнала последовательно от кадра к кадру, и их величины зависят от выявления речи. Если речь не выявлена, то оценка шума и/или спектральный профиль обновляются для текущего кадра. Если речь выявлена, то оценка шума и/или спектральный профиль остаются не подстроенными.
В первом варианте осуществления изобретения схема фильтра вычисляет оценки шума для кадров аудиосигналов, имеющих цифровой вид (цифровых аудиосигналов). Оценки шума соответствуют количеству фонового шума в кадрах цифровых аудиосигналов. Оценки шума возрастают по мере возрастания относительной величины (уровня) фонового шума к (уровню) речи в низкочастотном диапазоне речи. Схема управления фильтром использует оценки шума для регулировки схемы фильтра так, чтобы она фильтровала большие части низкочастотного диапазона речи при увеличении относительной величины (уровня) фонового шума к (уровню) речи в низкочастотном диапазоне речи. Когда фоновый шум отсутствует, то никакая часть речевого сигнала не фильтруется. Когда имеется более высокий уровень фонового шума, то выделяются большие части шума и речевой информации. Поскольку шум преимущественно соответствует низкочастотному диапазону и только относительно небольшая часть разборчивой речи попадает в этот низкочастотный диапазон, разборчивость аудиосигнала в целом может быть улучшена, если при увеличении оценок шума будет увеличиваться отфильтровываемая часть низкочастотной энергии.
Во втором варианте осуществления изобретения используется модифицированная схема управления фильтром для регулировки схемы фильтра. Регулировка осуществляется так, чтобы схема фильтра проявляла различные частотные характеристики в зависимости от профиля шума оценки шума в отобранном частотном диапазоне в аудиосигнале. Схема управления фильтром включает спектральный анализатор для определения оценки профиля шума в зависимости от выявления речи. Оценка профиля шума определяется для текущего кадра и сравнивается с эталонным профилем шума. На основе этого сравнения схема фильтра адаптивно регулируется так, чтобы она выделяла различные количества низкочастотной энергии из текущего кадра.
Адаптивная система снижения шума согласно настоящему изобретению может с успехом применяться в телекоммуникационных системах, в которых портативные/мобильные радиоприемопередатчики связываются по РЧ каналам с любыми другими приемопередатчиками или с абонентами конкретной телефонной линии. Каждый приемопередатчик включает антенну, приемник для преобразования радиосигналов, принимаемых по РЧ каналу через антенну, в аналоговый аудиосигнал и передатчик. Передатчик включает кодер-декодер (кодек) для преобразования в цифровой вид аналоговых аудиосигналов, которые должны быть переданы в виде кадров цифровой речевой информации, при этом речевая информация содержит речь и фоновый шум. Для того, чтобы свести к минимуму фоновый шум, процессор цифровых сигналов обрабатывает текущий кадр, исходя из оценки фонового шума в текущем кадре и выявления в нем речи (речевой составляющей). Модулятор модулирует РЧ несущую с обработанным кадром речевой информации, имеющей цифровой вид, для последующей передачи через антенну.
КРАТКОЕ ОПИСАНИЕ
ЧЕРТЕЖЕЙ
Эти и другие особенности и
достоинства настоящего изобретения станут очевидными для среднего специалиста в данной области техники из последующего описания с учетом чертежей, на
которых:
фиг. 1 представляет общую
функциональную блок-схему настоящего изобретения;
фиг. 2 иллюстрирует кадр и структуру временных интервалов цифрового стандарта США IS-54 для
сотовой радиосвязи;
фиг. 3 представляет
блок-схему первого предпочтительного варианта настоящего изобретения, выполненного с использованием процессора цифровых сигналов;
фиг. 4
представляет функциональную блок-схему примерного
варианта настоящего изобретения в одном из многочисленных портативных (переносных) радиоприемопередатчиков, входящих в телекоммуникационную систему;
фиг. 5A и 5B представляют
последовательность выполнения операций (алгоритм), которая иллюстрирует фракции/операции, выполняемые процессором цифровых сигналов при осуществлении первого
предпочтительного варианта настоящего
изобретения;
фиг. 6A представляет график, иллюстрирующий первый пример характерной зависимости ослабления сигнала от частоты для схемы фильтра согласно
первому предпочтительному варианту
настоящего изобретения;
фиг. 6B представляет график, иллюстрирующий второй пример характерной зависимости ослабления сигнала от частоты для схемы фильтра
согласно первому предпочтительному
варианту настоящего изобретения;
фиг. 7 - пример справочной таблицы, к которой обращается схема управления фильтром согласно первому предпочтительному
варианту настоящего изобретения;
фиг. 8A и 8B - графики, иллюстрирующие примерные характерные зависимости амплитуды от частоты входных аудиосигналов;
фиг. 9A и 9B - графики,
иллюстрирующие характерные зависимости амплитуды
от частоты входных аудиосигналов, показанных на фиг. 8A и 8B соответственно, после того, как они прошли фильтрацию схемой фильтра, выполненной
согласно настоящему изобретению;
фиг. 10
- блок-схема второго предпочтительного варианта настоящего изобретения, выполненного с использованием процессора цифровых сигналов;
фиг. 11
- последовательность выполнения операций (алгоритм),
соответствующая последовательности, показанной на фиг. 5B, которая иллюстрирует функции/операции, выполняемые процессором цифровых сигналов при
осуществлении второго предпочтительного варианта
настоящего изобретения; и
фиг. 12 - пример справочной таблицы, к которой может обращаться схема управления фильтром, согласно второму
предпочтительному варианту настоящего изобретения.
ПОДРОБНОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
В последующем описании с целью пояснения изобретения, но не ограничения его, приводятся
определенные подробности, например, такие как конкретные схемы,
элементы схем, методики, алгоритмы и т.д., они приведены для того, чтобы обеспечить глубокое понимание изобретения. Однако специалистам
в данной области техники будет очевидно, что настоящее
изобретение может быть реализовано на практике и в других вариантах, которые выходят за рамки этих указанных конкретных деталей. С другой
стороны, опущены подробные описания хорошо известных методов,
устройств и схем, чтобы не загромождать описание настоящего изобретения несущественными подробностями.
На фиг. 1 представлена общая блок-схема адаптивной системы 100 снижения шума согласно настоящему изобретению. Адаптивная система 100 снижения шума включает схему 105 управления фильтром, соединенную со схемой 115 фильтра. Схема 105 управления фильтром генерирует сигнал управления фильтром для текущего кадра аудиосигнала, преобразованного в цифровой вид. Сигнал управления фильтром подается на схему 115 фильтра, а схема 115 фильтра настраивается в ответ на сигнал управления фильтром так, чтобы она имела частотную характеристику с пропусканием высоких частот, отобранную на основе сигнала управления фильтром. Настроенная схема 115 фильтра фильтрует текущий кадр аудиосигнала, преобразованного в цифровой вид. Сигнал после фильтрации обрабатывается вокодером 120 для получения закодированного сигнала, представляющего аудиосигнал в цифровом виде.
Для варианта изобретения, показанного в качестве примера, применяемого для портативных (переносных)/мобильных радиотелефонных приемопередатчиков в системе сотовой связи, на фиг. 2 проиллюстрирована структура кадра с многостанционным доступом с временным разделением каналов (МДВРК), используемая в стандарте IS-54 для цифровой сотовой связи. "Кадр" представляет собой временной интервал в двадцать миллисекунд, который включает один блок TX передачи, один блок RX приема и блок измерения длины сигнала, используемый для мобильного перераспределения каналов (МПК). Два последовательных кадра, показанных на фиг. 2, передаются за временной интервал в сорок миллисекунд. Преобразованная в цифровой вид информация, содержащая речь и фоновый шум, обрабатывается и фильтруется последовательно кадр за кадром, как будет описано ниже.
Предпочтительно, чтобы функции схемы 105 управления фильтром, схемы 115, фильтра и вокодера 120, показанных на фиг. 1, выполнялись с помощью высокоскоростного процессора цифровых сигналов. Одним из подходящих процессоров цифровых сигналов является ПЦС TMS320C53, изготовляемый Texac Instruments. ПЦС TMS320C53 включает шестнадцатибитовый микропроцессор в виде одной интегральной схемы, ОЗУ на ИС для хранения данных, таких как речевые кадры, которые должны быть обработаны, ПЗУ для хранения различных алгоритмов для обработки данных, включая алгоритм сжатия речи КВЛПВС и другие алгоритмы, которые будут описаны ниже, для осуществления функций, выполняемых схемой 105 управления фильтром и схемой 115 фильтра.
Первый вариант настоящего изобретения показан на фиг. 3. В первом варианте схема 115 фильтра настраивается в зависимости от оценок фонового шума, определенных с помощью схемы управления фильтром. Кадры, полученные при импульсно-кодовой модуляции аудиоинформации (ИКМ кадры), последовательно запоминаются в ОЗУ на ИС в ПЦС. Аудиоинформация может быть преобразована в цифровой вид с использованием также и других методов преобразования в цифровой вид. Каждый ИКМ кадр извлекается из ОЗУ на ИС ПЦС и обрабатывается в устройстве 210 оценки энергии кадра, а также временно запоминается в устройстве 220 временного хранения кадра. Данные по энергии текущего кадра, определенные с помощью устройства 210 оценки энергии кадра, передаются в функциональные блоки: устройство 230 оценки шума и детектор 240 речи. Детектор речевой составляющей 240 указывает, что в текущем кадре содержится речь, если оценка энергии кадра превышает сумму величин предыдущей оценки шума и порогового уровня речи. Если детектор речевой составляющей 240 устанавливает, что речь отсутствует, тогда процессор 200 цифровых сигналов вычисляет новую оценку шума в зависимости от предыдущей оценки шума и энергии текущего кадра (блок 230).
Обновленная оценка шума подается в селектор 235 фильтра. Селектор 235 фильтра генерирует сигнал управления фильтром, исходя из оценки шума. В предпочтительном варианте селектор 235 фильтра при формировании сигнала управления фильтром обращается к справочной таблице. Справочная таблица включает группы значений управления фильтром, каждая из которых соответствует величине оценки шума или диапазону уровней оценки шума (вводу). Величина управления фильтром отбирается из справочной таблицы исходя из обновленной оценки шума, и эта величина управления фильтром представляется в виде сигнала управления фильтром, поступающего в банк 265 фильтров для схемы 115 фильтра. Для стабилизации процесса и для того, чтобы не допустить чрезмерно большого числа переключений между различными фильтрами, при отборе нового фильтра устанавливается отложенное время, соответствующее N кадрам. Новый фильтр может быть отобран только один на N кадров, где N - целое число больше 1 и предпочтительно больше 10.
Схема 115 фильтра настраивается в ответ на сигнал управления фильтром так, чтобы она имела частотную характеристику, пропускающую высокие частоты, которая соответствовала бы сигналу управления фильтром и оценке шума, подаваемым на вход схемы 115. Из уровня техники хорошо известны многочисленные различные виды схем фильтров, которые могут быть использованы для получения отобранных частотных характеристик в ответ на сигнал управления фильтром. Эти известные из уровня техники фильтры включают БИХ-фильтры (фильтры с бесконечной импульсивной характеристикой), такие как фильтр Баттерворта, фильтр Чебышева или эллиптический фильтр. БИХ-фильтры являются предпочтительными по отношению к КИХ-фильтрам (фильтрам с конечной импульсной характеристикой), которые также могут быть использованы вследствие того, что у них более низкие требования к обработке данных.
Фильтрованный сигнал обрабатывается вокодером 120, который используется для сжатия (уменьшения) скорости передачи двоичных данных фильтрованного сигнала. В предпочтительных вариантах вокодер 120 использует для кодирования аудиосигнала КВЛПВС. Могут быть также использованы и другие методы и алгоритмы кодирования голоса, например кодирование с линейным предсказанием, возбуждаемым кодом (CELP), кодирование с линейным предсказанием, возбуждаемым оставшимся импульсом (RPE-LTP), улучшенное возбуждаемое многополосное кодирование (IMBE). За счет фильтрации кадров аудиосигналов согласно настоящему изобретению до выполнения голосового кодирования фоновый шум снижается до минимума, что, по существу, уменьшает любые нежелательные шумовые эффекты в речи, когда она будет восстанавливаться. Это также защищает речь от того, чтобы она не "утонула" в низкочастотном шуме.
Процессор 200 цифровых сигналов, описанный со ссылкой на фиг. 3, может быть использован, например, в приемопередатчике цифрового портативного (переносного)/мобильного радиотелефона, используемого в системе радиосвязи. На фиг. 4 представлен один такой цифровой радиоприемопередатчик, который может быть использован в сотовой телекоммуникационной сети.
Аудиосигналы, содержащие речь и фоновый шум, поступают на вход микрофона 400 для ввода в кодер-декодер (кодек) 402, который предпочтительно представляет собой интегральную схему специального приложения (ИССП). Полоса (частотная), ограниченная аудиосигналами, детектируемыми в микрофоне 400, стробируется кодеком 402 с частотой 8000 выборок в секунду, и выборки блокируются в кадры. Таким образом, каждый двадцатимиллисекундный кадр включает 160 речевых выборок (дискретных значений). Эти выборки квантуются и преобразовываются в закодированный цифровой формат, например, 14-битовой линейной ИКМ. Как только 160 выборок речи, преобразованной в цифровой вид, для текущего кадра запоминаются в ОЗУ 202 на ИС в передающем ПЦС 200, передающий ПЦС 200 выполняет операции по кодированию канала, оценку энергии кадра, оценку шума, детектирование (выявление) речи, БПФ (быстрое преобразование Фурье), функции фильтра и кодирование/сжатие цифровой речи в соответствии с алгоритмом КВЛПВС, как описано выше при ссылке на фиг. 3.
Контролирующий микропроцессор 432 управляет всей работой всех элементов в приемопередатчике, показанном на фиг. 4. Поток фильтрованных ИКМ данных, генерируемый передающим ПЦС 200, предназначен для квадратурной модуляции и передачи. Для этого матрица 404 логических элементов ИССП формирует каналы информации, синфазный (I) и квадратурный (Q), на основе потока фильтрованных ИКМ данных из ПЦС 200. Потоки I и Q двоичных данных обрабатываются согласованно с помощью низкочастотных фильтров 406 и 408 и поступают в смесители IQ в балансном модуляторе 410. Генератор 412 опорной частоты и умножитель 414 обеспечивают передающую промежуточную частоту (ПЧ). I-сигнал смешивается с синфазной ПЧ, а Q-сигнал смешивается с квадратурной ПЧ (т.е. с помощью фазовращателя 416 синфазная ПЧ отстает на 90 градусов). Смешенные I- и Q-сигналы суммируются, преобразуются "до" частоты РЧ канала, отобранного с помощью синтезатора 430 каналов, и передаются через дуплексор 420 и антенну 422 по отобранному радиочастотному каналу.
Со стороны приема сигналы, принятые через антенну 422 и дуплексор 420, преобразуются с частоты отобранного канала приема в смесителе 424 к первой ПЧ частоте, используя сигнал гетеродина, синтезированный синтезатором 430 каналов на основе выходного сигнала генератора 428 опорной частоты. Выходной сигнал смесителя 424 первой ПЧ фильтруется и преобразовывается в частоту второй ПЧ на основе другого выходного сигнала из синтезатора 430 каналов и демодулятора 426. Матрица 434 логических элементов приема затем преобразует сигнал второй ПЧ в группы фазовых выборок и группы частотных выборок. ПЦС 436 приема выполняет демодуляцию, фильтрацию, усиление/ослабление, декодирование канала и растягивание речи в принятых сигналах. Обработанные речевые данные затем передаются в кодек 402 и преобразуются до базовой (основной) частотной полосы аудиосигналов для приведения в действие громкоговорителя 438.
Операции, выполняемые процессором 200 цифровых сигналов для
осуществления функции схемы 105 управления фильтром, схемы 115 фильтра и кодера
120, теперь будут раскрыты со ссылкой на последовательность выполнения операций (алгоритм), представленную на фиг. 5A и
5B. Устройство 210 оценки энергии кадра определяет энергию в каждом кадре
аудиосигналов. Устройство 210 оценки энергии кадра определяет энергию текущего кадра путем вычисления суммы квадратов величин
каждой ИКМ выборки в кадре (шаг 505). Поскольку при частоте стробирования
8000 выборок в секунду на двадцатимиллисекундный кадр приходится 160 выборок (дискретных значений), то суммируются 160 ИКМ
выборок, значения которых возведены в квадрат. В математическом виде оценка
энергии кадра определяется согласно следующему уравнению:
В функции речевого
детектора 240 входит вызов из ОЗУ на ИС ПЦС 200 оценки шума, ранее определенной устройством 230
оценки шума (шаг 515). Конечно, когда приемопередатчик в начальный момент включается, то никакой оценки
шума не будет существовать. Блок 520 принятия решения предусматривает эту ситуацию и присваивает
значение оценки шума на шаге 525. Предпочтительно, в качестве оценки шума присваивается произвольная
высокая величина, например на 20 дБ выше нормальных уровней речи, для того чтобы пришлось обновлять
величину оценки шума, как это будет показано ниже. Энергия кадра, определенная с помощью устройства
210 оценки энергии кадра, извлекается из ОЗУ 202 на ИС ПЦС 200 (блок 530). В блоке 535 принимается
решение: превышает ли оценка энергии кадра сумму величины извлеченной оценки шума и заданной
величины речевого порога, как показано в следующем уравнении 2:
оценка энергии кадра >
(оценка шума + речевой порог)
Величина речевого порога может быть фиксированной
величиной, определенной эмпирически; она должна быть больше, чем изменения энергии за короткие промежутки
времени (флуктуации энергии) типичного фонового шума, и может быть, например, установлена в 9
дБ. Кроме того, величина речевого порога может быть адаптивно модифицирована, чтобы она отражала
изменяющиеся условия речи, например, когда говорящий попадает в более шумную или более тихую
обстановку. Если оценка энергии кадра превышает сумму в уравнении 2, то в блоке 570 устанавливается признак,
что речь существует. Если детектор речевой составляющей 240 выявляет, что речь существует,
тогда устройство 230 оценки шума обходится и извлекается (из ОЗУ) оценка шума, вычисленная для предыдущего
кадра в аудиосигнале, преобразованном в цифровой вид, и она используется в качестве текущей
оценки шума. В противном случае, если оценка энергии кадра меньше, чем сумма в уравнении 2, тогда признак
речи в блоке 540 возвращается в исходное состояние.
Другие системы для детектирования речи в текущем кадре также могут быть использованы. Например, Европейский институт телекоммуникационных стандартов (ЕИТС) разработал стандарт детектирования голосовой активности (ДГА) в системе Глобальная Система для Мобильной связи (GSM) и описал его в Стандартах ЕИТС: RE/SMG-020632P; в описание изобретения он включен в качестве ссылки на источник информации. Этот стандарт мог бы использоваться для детектирования речи в настоящем изобретении, и он включен в качестве ссылки.
Если речь не выявлена, тогда устройство оценки шума 230 выполняет стандартную последовательность операций по обновлению оценки шума. По сути, оценка шума представляет собой среднюю величину энергии кадра за временные интервалы, когда нет речи. Как было описано выше, если оценка шума в момент начала работы выбирается достаточно высокой, то речь не выявляется и признак речи будет в исходном состоянии, вследствие чего потребуется выполнять операции по обновлению оценки шума.
В последовательности операций (подпрограмме) по оценке шума, выполняемой
устройством 230 оценки шума, дельта (Δ) разности/ошибки определяется в блоке 545 между энергией
шума кадра, полученной
устройством 210 оценки энергии кадра, и оценкой шума, ранее вычисленной
устройством 230 оценки шума, в соответствии со следующим уравнением:
Δ = энергий
текущего кадра - предыдущая оценка шума
(уравнение 3)
В блоке 550 принятия решения
определяется, превышает ли Δ нуль. Если Δ - отрицательная, что имеет место при
высоких величинах оценки шума, тогда оценка шума повторно вычисляется в блоке 560 в соответствии со
следующим уравнением:
оценка шума = предыдущая оценка шума + Δ/2
(уравнение 4)
Поскольку Δ - отрицательная величина, то это приводит к понижающей корректировке
оценки шума. Относительно большой размер шага, Δ/2, выбирается для того, чтобы
резко (быстро) осуществлять коррекцию для понижающихся шумовых уровней. Однако, если энергия кадра превышает
оценку шума, обеспечивая Δ большую, чем нуль, тогда оценка шума обновляется в блоке
555 в соответствии со следующим уравнением:
оценка шума = предыдущая оценка шума + Δ/256
(уравнение 5)
Поскольку Δ - положительная величина, то оценка шума
должна быть увеличена. Однако небольшой размер шага, Δ/256 (по сравнению с Δ/2), выбирается для
постепенного увеличения оценки шума и обеспечения, в значительной степени,
невосприимчивости к проходящему шуму.
Оценка шума, вычисленная для текущего кадра, подается на селектор 235 фильтра. В первом предпочтительном варианте селектор 235 фильтра обращается к справочной таблице и использует текущую оценку шума для отбора величины управления фильтром (шаг 572). Схема 115 фильтра (на шаге 574) настраивается в зависимости от выбранной величины управления фильтром так, чтобы ее частотная характеристика обеспечивала увеличение количества фильтрованного шума при увеличении оценки шума и фонового шума. ИКМ выборки, хранящиеся в ОЗУ ПЦС, затем пропускаются через настроенную схему 265 фильтра, чтобы она фильтровала ИКМ выборки для устранения шума (шаг 576). Фильтрованные ИКМ выборки затем обрабатываются вокодером 120 (шаг 578), и закодированные выборки затем подаются на схемы РЧ-передачи (шаг 580).
На фиг. 6A и 6B показаны примеры того, как настраивается схема 115 фильтра, для того чтобы она имела различные частотные характеристики F1 - F4 для различных сигналов управления фильтром, поступающих на вход схемы 115 фильтра. Как показано на фиг. 6A, схема 115 фильтра может быть отобрана такой, чтобы она проявляла группу различных частотных характеристик, причем эти частотные характеристики F1 - F4 имеют частоты отсечки F1c - F4c соответственно. Частоты отсечки схемы 115 фильтра могут быть в предпочтительном варианте в диапазоне от 300 Гц до 800 Гц. При увеличении оценки шума схема 115 фильтра выполняется так, чтобы она проявляла частотные характеристики, имеющие более высокие частоты отсечки. Более высокие частоты отсечки приводят к тому, что большая часть энергии кадра попадает в низкочастотный речевой диапазон, который выделяется с помощью схемы 115 фильтра.
Таким же образом, как показано на фиг. 6B, схема 115 фильтра может быть отобрана так, чтобы она проявляла группу различных частотных характеристик F1 - F4, причем каждая из этих частотных характеристик имела бы различный наклон и одну и ту же частоту отсечки. Частота отсечки для частотных характеристик F1 - F4 находится в вышеупомянутом диапазоне. Схема 115 фильтра настраивается так, чтобы при увеличении оценки шума она имела частотные характеристики с более крутыми наклонами. Более крутые наклоны приводят к тому, что большая часть энергии кадра попадает в низкочастотный речевой диапазон, который выделяется с помощью схемы 115 фильтра.
Схема 115 фильтра фильтрует текущие кадры в зависимости от оценки шума, вычисленной для текущего кадра. Текущий кадр фильтруется так, чтобы шум был уменьшен (подавлен), а основная часть речи прошла (через фильтр). Основная часть речи, которая проходит не отфильтрованной, дает выходной сигнал распознаваемой речи лишь с минимальным снижением качества речевого сигнала. Комбинирование различных частот отсечки и различных наклонов может быть использовано для адаптивного выделения отобранных частей энергии кадра, попадающих в низкочастотный речевой диапазон.
На фиг. 7 показан пример справочной таблицы, к которой обращается селектор 235 фильтра, для того чтобы отобрать одну из частотных характеристик F1 - F4 для схемы 115 фильтра. Справочная таблица включает группы потенциальных (возможных) оценок (вводов) N1 - Nn шумов и величин F1 - Fn управления фильтром, соответствующих потенциальным частотным характеристикам, которые может иметь схема 115 фильтра. Каждая из оценок N1 - Nn шума может представлять диапазон оценок шума и каждая из них согласуется с конкретной величиной F1 - F4 управления фильтром. Схема 105 управления фильтром генерирует сигнал управления фильтром путем вычисления оценки шума и извлечения из справочной таблицы величины управления фильтром, соответствующей этой оценке.
На фиг. 8A, 8B и 9A, 9B показано, как адаптивно фильтруется аудиосигнал для каждого из двух кадров для получения улучшенного аудиосигнала, поступающего на РЧ передатчик. На фиг. 8A и 8B показаны первый кадр и второй кадр аудиосигнала, содержащего речевые компоненты s1 и s2 и шумовые компоненты n1 и n2 соответственно. Как показано, шумовая энергия n1 и n2 в обоих кадрах сосредоточена в низкочастотном звуковом диапазоне, а речевая энергия s1 и s2 сосредоточена в более высокочастотном звуковом диапазоне. На фиг. 9A показаны шумовой сигнал n1 и речевой сигнал s1 для первого кадра после фильтрации. На фиг. 9B показаны шумовой сигнал n2 и речевой сигнал s2 для второго кадра после фильтрации.
Как уже указывалось, адаптивная система 100 снижения звукового шума выполняется с учетом разности в уровнях шума между первым кадром и вторым кадром путем регулировки схемы 105 управления фильтром на основе вычисленной оценки шума для текущего кадра. Например, схемой 105 управления фильтром вычисляются оценка N1 шума и спектральный профиль S1 и для первого кадра отбирается величина F1 управления фильтром. В предпочтительном варианте схема 115 фильтра регулируется исходя из величины F1 управления фильтром, и в результате схема 115 фильтра приобретает частотную характеристику F1 с частотой F1c отсечки, как показано на фиг. 6A. Первый кадр проходит через эту отрегулированную схему 115 фильтра. Схема 115 фильтра отбирается так, чтобы большая часть шума n1 и лишь небольшая часть речи s1 попадали ниже частоты F1c отсечки частотной характеристики F1. Это приводит к тому, что шум n1 эффективно фильтруется, а в речи s1 фильтруется только относительно незначительная ее часть. Фильтрованный аудиосигнал первого кадра показан на фиг. 9A.
Во втором кадре, показанном на фиг. 8B, фоновый шум имеет более высокий уровень. Предполагая, что речь не выявлена, схемой 105 управления фильтром вычисляется более высокая оценка n2 шума. Для второго кадра исходя из более высокой оценки шума определяется более высокая величина F2 управления фильтром. В первом предпочтительном варианте схема 115 фильтра регулируется в ответ на более высокую величину F2 управления фильтром так, чтобы ее частотная характеристика имела более высокую частоту F2с отсечки, как показано на фиг. 6A. Следующий (второй) кадр аудиосигнала проходит через отрегулированную схему 115 фильтра. Поскольку частота F2c отсечки частотной характеристики F2 выше для последующего (второго) кадра, то фильтруется большая часть шума n2 и речи s2. Фильтрованная часть речи s2 остается все еще относительно незначительной для того, чтобы повлиять на разборчивость информации, содержащейся в кадре, поэтому на речь оказывается лишь минимальное отрицательное влияние. Недостаток, возникающий из-за фильтрации большей части речи s2, находится в противовесе с достоинством, обусловленным устранением шума n2 из второго кадра. Фильтрованный участок спектра речи не вносит значительного вклада в разборчивость речи. Аудиосигнал второго кадра, прошедший фильтрацию, показан на фиг. 9B.
Второй предпочтительный вариант адаптивной системы 100 снижения шума показан на фиг. 10-12. Во втором предпочтительном варианте схема 105 управления фильтром регулирует схему 115 фильтра в зависимости от оценок (спектрального) профиля шума. Оценка профиля шума вычисляется для каждого кадра и сравнивается с эталонным профилем шума. На основе этого сравнения схема 115 фильтра адаптивно регулируется так, чтобы она выделяла (убирала) из текущего кадра различные количества низкочастотной энергии.
На фиг. 10 показана конфигурация ПЦС 200 согласно второму предпочтительному варианту изобретения. Как показано, схема 105 управления фильтром включает спектральный анализатор 270, помимо устройства 210 оценки энергии кадра устройство 230 оценки шума, детектор речевой составляющей 240 и селектора 235 фильтра, которые описаны при раскрытии первого варианта изобретения. Схема 105 управления фильтром определяет оценки шума и выявляет речь для принятых кадров, как это описано для первого варианта изобретения и показано в виде последовательностей выполнения операций (алгоритмов), представленных на фиг. 5A и 5B. Если для текущего кадра речь выявлена, тогда спектральный анализатор 270 обновляет оценку профиля шума и использует эту оценку профиля шума для регулировки схемы 115 фильтра.
На фиг. 11 показаны шаги, выполняемые при обновлении оценки профиля шума и регулировке схемы 115 фильтра. На фиг. 11 показаны шаги, выполняемые спектральным анализатором 270, которые включены в полный процесс обработки данных, ранее описанный в алгоритмах на фиг. 5A и 5B для первого предпочтительного варианта.
Если для текущего кадра речь не выявлена, спектральный анализатор 270 сначала определяет профиль шума для текущего кадра (шаг 600). Определенный для текущего кадра профиль шума включает (результаты) вычисления энергии для различных частот (т.е. элементов разрешения по частоте) в пределах отобранного для текущего кадра низкочастотного речевого диапазона. В предпочтительном варианте отобранный частотный диапазон составляет примерно от 300 до 800 герц. Профиль шума текущего кадра может быть определен путем обработки текущего кадра с использованием быстрого преобразования Фурье (БПФ) с N элементами разрешения по частоте. Обработка цифровых сигналов с помощью БПФ хорошо известна в данной области техники и привлекательна она тем, что для нее требуется очень маленькая мощность обработки там, где БПФ ограничивается относительно небольшим числом элементов разрешения по частоте, например 32. БПФ с N элементами разрешения по частоте дает рассчитанные значения (уровни) энергии на N различных частотах. Вычисленные значения (уровни) энергии для элементов разрешения по частоте, попадающие в отобранный частотный диапазон, образуют профиль шума для текущего кадра.
Для того, чтобы определить оценку профиля шума для текущего кадра (шаг 604), профиль шума для текущего кадра усредняется с оценкой профиля шума, определенной для предыдущего кадра аудиосигнала. В том случае, если предыдущая оценка профиля шума отсутствует, например, после приведения системы в исходное состояние, тогда может быть использована первоначальная оценка профиля шума, хранящаяся в памяти. Оценка профиля шума включает оценки ei энергии шума (где i = 1, 2, ...), расположенные последовательно в порядке уменьшения частот (т.е. e1 - оценка энергии шума для наиболее высокой частоты, а en - оценка энергии шума для наиболее низкой частоты в отобранном частотном диапазоне). В предпочтительном варианте каждая оценка ei энергии шума соответствует среднему значению результатов расчета уровня энергии при конкретной частоте в отобранном частотном диапазоне для множества последовательных кадров, в которых речь не была выявлена. За счет использования множества кадров при определении оценки профиля шума схема 115 фильтра регулируется более постепенно. В других вариантах оценка профиля шума может быть приравнена к профилю шума текущего кадра.
Оценки ei энергии в оценке профиля шума затем сравниваются с эталонным профилем шума (шаг 604). Эталонный профиль шума включает эталонные пороговые уровни eri энергии (где i - 1, 2, ... n) на частотах, соответствующих частотам для оценок ei энергии шума в оценке профиля шума. Эталонные пороговые уровни eri энергии могут быть определены эмпирически. Оценки ei энергии шума последовательно сравниваются с соответствующими эталонными пороговыми уровнями eri энергии, начиная с оценки e1 энергии на самой высокой частоте до оценки en энергии на самой низкой частоте.
А более конкретно: оценка e1 энергии шума сначала сравнивается с эталонным пороговым уровнем er1 шума. Если e1 больше, чем эталонный пороговый уровень er1 шума, тогда отбирается величина c1 сравнения и подается на вход селектора 235 фильтра. Если оценка e1 энергии шума меньше, чем эталонный пороговый уровень er1 шума, тогда оценка e2 энергии шума (которая является оценкой энергии шума при более низкой частоте, чем e1) сравнивается с эталонным пороговым уровнем er2 шума. Если оценка e2 энергии шума больше, чем эталонный пороговый уровень er2 шума, тогда отбирается величина c2 сравнения и подается на вход селектора 235 фильтра. Этот процесс сравнения продолжается до тех пор, пока не будет отобрана величина ci сравнения (где i = 1, 2, ... n).
Схема 235 фильтра использует определенные величины ci сравнения для того, чтобы определить величину управления фильтром. Величина управления фильтром отбирается из справочной таблицы так, как показано на фиг. 12. Справочная таблица включает группы из величин ci сравнения и соответствующих величин Fi управления фильтром. Схема 115 фильтра регулируется в зависимости от отобранной величины управления фильтром. Схема 115 фильтра регулируется так, чтобы ее частотная характеристика выделяла из текущего кадра низкочастотную энергию. Схема 115 фильтра регулируется так, чтобы она выделяла возрастающее количество низкочастотной энергии по мере того, как оценки энергии шума при последовательно повышающихся частотах превышают соответствующие эталонные пороговые уровни энергии. На фиг. 6A и 6B показан пример частотных характеристик для отобранных величин управления фильтром.
Использование оценок профиля шума способствует тому, чтобы улучшить способность схемы фильтра к адаптивной регулировке, чтобы выделение низкочастотной энергии приводило к улучшению в целом качества речи. Поскольку мобильные средства связи используются не только в автомобилях и, таким образом, в определенных ситуациях профиль шума может быть смещен в сторону более высоких частот, спектральный анализатор 270 может оказаться селективно непригодным, когда энергия шума на низких частотах будет мала. Кроме того, если значительная часть частотного спектра шума находится в более низких частотах, тогда может быть применен более крутой фильтрующий наклон, даже если возможно придется пожертвовать некоторой вычислительной мощностью. Эти дополнительные требования к вычислительным возможностям все еще довольно небольшие.
Из вышеприведенного описания очевидно, что адаптивная система фильтрации шума согласно настоящему изобретению выполняется легко и без значительного увеличения объема вычислений ПЦС. Более сложные методы снижения шума, такие как "спектральное вычитание", требуют использования вычислительных средств, производящих несколько миллионов операций в секунду (МОС), а также имеющих большой объем памяти для хранения данных и программ кодирования. Для сравнения, настоящее изобретение может быть реализовано при использовании только доли от МОС и объема памяти, требующейся для алгоритма "спектрального вычитания", который, кроме того, вносит большие речевые искажения. За счет снижения объема памяти снижается размер интегральных схем ПЦС; пониженный объем выполняемых операций (МОС) обеспечивает снижение затрат на энергию. Оба эти достоинства требуются для портативных (переносных)/мобильных радиотелефонов, запитываемых от батареек.
Несмотря на то, что изобретение было конкретно показано и описано со ссылкой на его предпочтительные варианты выполнения, оно не ограничивается этими вариантами. Например, хотя ПЦС описан как выполняющий функции устройства 210 оценки энергии кадра, устройства 230 оценки шума, детектора речевой составляющей 240, селектора 235 фильтра и схемы 265 фильтра, эти функции могу быть реализованы с использованием других цифровых и/или аналоговых элементов. Кроме того, адаптивная система 100 фильтрации может быть реализована и в таком варианте, когда схема 115 фильтра регулируется в зависимости и от оценок шума, и от оценок профиля шума.
Изобретение относится к передаче речи. Его использование в переносных цифровых радиотелефонах позволяет получить технический результат в виде повышения разборчивости речи. Способ реализуется в устройстве для селективного видоизменения кадра цифрового сигнала, образованного множеством последовательных кадров, когда цифровой сигнал представляет поступивший на передатчик аудиосигнал, образованный речевой и/или шумовой составляющими. Технический результат достигается благодаря тому, что в устройстве для селективного видоизменения кадра цифрового сигнала введены: устройство оценки уровня энергии, детектор речевой составляющей, устройство оценки шума, работающее, когда детектор речевой составляющей определяет, что речевая составляющая не формирует части кадра, справочную таблицу, содержащую множество вводов, при этом каждый ввод снабжен индексом, указывающим на уровень оценок шума, и фильтр для приема кадра цифрового сигнала, характеристики которого могут отбираться по вводу справочной таблицы, к которой было обращение, а ввод соответствует обновленной оценке шума, полученной устройством оценки шума. 2 с. и 8 з.п.ф-лы, 12 ил.