Устройство для температурно-инвариантной аудиовизуальной локализации источника голоса - RU170249U1

Код документа: RU170249U1

Чертежи

Описание

Область техники

Уровень техники

Из уровня техники известны различные устройства и системы, обеспечивающие локализацию источников человеческой речи, осуществляемую посредством микрофонных решеток.

Например, известна звуковая система локализации для телеконференций с помощью самоуправляемых микрофонных решеток, описанная в патенте № US 5335011 А, опубл. 12.01.1993. В данном решении для определения направления на источники звука область вокруг установки разделяется на зоны. Каждая зона сканируется высоконаправленным акустическим лучом, чтобы проверить там наличие источников звука. Такая система чувствительна к реверберациям, а также плохо различает близкорасположенные источники звука, т.к. сформированная диаграмма направленности имеет угловую ширину от нескольких, до десятков градусов. Кроме того, в случае использования плоских или линейных микрофонных решеток, система не сможет различать источники звука спереди и сзади нее, т.е. расположенные на смежных углах. Система при формировании диаграммы направленности учитывает скорость звука в воздухе, однако не имеет датчиков для оценки ее реального значения, что приводит к ухудшению качества локализации при несовпадении предполагаемой скорости и реальной. Данное решения является наиболее близким аналогом.

Известны способ и устройство для выбора активного говорящего с помощью микрофонных решеток и идентификация голоса, описанные в заявке № US 20090220065 А1, опубл. 03.03.2008. Описанная в данном документе система определяет направления на источники звука с помощью массива микрофонов и выделяет сигнал от говорящего. В дальнейшем он проходит через систему идентификации дикторов, которая служит дополнительным фильтром, отбрасывающим шумы и реверберации. Система опять же не имеет датчиков для оценки реальной скорости звука, необходимой для акустических расчетов, а также имеет проблемы с различением близко расположенных источников звука.

Известна система, обеспечивающая разделение источника звука с использованием пространственной фильтрации и регуляризацией фаз, описанная в патенте № US 8583428 В2, опубл. 15.06.2010. Данная система вычисляет направления на источники звука, используя разности фаз гармоник звуковых сигналов, приходящих на разные микрофоны микрофонной решетки. Система имеет проблемы с различением близкорасположенных источников звука. Также для ее работы необходимо знание реальной скорости звука, оценка которой в патенте отсутствует.

Сущность полезной модели

Заявленное техническое решение решает задачу локализации источников человеческой речи посредством средств аудио- и видеофиксации.

Техническим результатом заявленного решения является повышение точности определения источников человеческой речи.

Данный результат достигается за счет выполнения акустического сканирования только по диапазону азимутов и углов мест, соответствующих областям обнаружения лиц с учетом реального значения скорости звука в воздухе, зависящего от атмосферных параметров окружающей среды, причем акустическое сканирование выполняется посредством микрофонной решетки, состоящей из MEMS микрофонов.

Для обеспечения указанного технического результата было разработано устройство локализации источника голоса, содержащее связанные по общей шине данных: микрофонную решетку, состоящую из MEMS микрофонов; устройство видеофиксации, жестко закрепленное относительно микрофонной решетки; блок определения атмосферного параметра окружающей среды; память, хранящую таблицу зависимости значений скорости звука в воздухе от значений атмосферного параметра окружающей среды; и блок обработки информации, причем блок обработки информации выполнен с возможностью:

обнаружения лиц на видео на основе сигнала, получаемого от устройства видеофиксации;

определения диапазонов азимутов и углов мест, соответствующих областям обнаруженных лиц, для формирования диаграммы направленности микрофонной решетки;

определения значения скорости звука в зависимости от значения атмосферного параметра окружающей среды;

акустического сканирования окружающей среды с помощью микрофонной решетки во множестве направлений, соответствующих областям обнаруженных лиц и определенных сформированной диаграммой направленности микрофонной решетки, с учетом определенного ранее значения скорости звука; и

локализации источников человеческой речи на основе данных акустического сканирования.

Краткое описание чертежей

Для лучшего понимания сущности полезной модели, и чтобы более ясно показать, каким образом она может быть осуществлена, далее будет сделана ссылка, лишь в качестве примера, на прилагаемые чертежи, на которых:

фиг. 1 - структурная схема устройства локализации источника голоса;

фиг. 2 - алгоритм работы устройства локализации источника голоса.

Осуществление полезной модели

На фиг. 1 изображена структурная схема устройства локализации источника голоса, в соответствии с которой устройство содержит связанные по общей шине данных: блок обработки информации 1; микрофонную решетку 2, состоящую из MEMS микрофонов; устройство видеофиксации 3, жестко закрепленную относительно микрофонной решетки; блок определения атмосферного параметра окружающей среды 4; память 5 и интерфейс связи 6.

Далее алгоритм работы устройства локализации источника голоса будет описан в соответствии со схемой, отображенной на фиг. 2.

Видеосигнал от устройства видеофиксации 3 непрерывно поступает на блок обработки информации 1, который в соответствии с заложенными в него программно-аппаратными алгоритмами, выполняет обнаружение лиц на видео, а также их сопровождение в случае, если лица были обнаружены ранее, при этом в случае обнаружения лиц на видео дальнейшее акустическое сканирование будет осуществляться только по диапазону азимутов и углов мест, соответствующих областям обнаруженных лиц. Для достижения данной задачи блок обработки информации 1 определяет диапазоны азимутов и углов мест, соответствующих областям обнаруженных лиц, и формирует на их основе диаграмму направленности микрофонной решетки. Для определения блоком обработки информации значения скорости звука, используемой при акустическом сканировании, используется информация от блока определения атмосферного параметра окружающей среды 4 и таблица зависимости скорости звука в воздухе от значения атмосферного параметра окружающей среды, хранящейся в памяти устройства.

Атмосферный параметр окружающей среды может представляет собой параметр температуры, влажности, атмосферного давления и других атмосферных параметров, влияющих на изменение значения скорости звука в воздухе. Также блок определения атмосферного параметра окружающей среды 4 может определять по меньшей мере один дополнительный параметр окружающей среды, а блок обработки информации осуществляет корректировку значения скорости звука в зависимости по меньшей мере от одного значения дополнительного атмосферного параметра окружающей среды.

Далее с помощью микрофонной решетки 2 блок обработки информации 1 сканирует окружающую среду, используя диаграмму направленности микрофонной решетки из MEMS микрофонов, проверяя энергию звукового сигнала в заранее заданном множестве направлений, соответствующим областям обнаруженных лиц, с учетом определенного ранее значения скорости звука. Координаты (азимут и угол места) обнаруженных источников человеческой речи при акустическом сканировании обрабатываются блоком обработки информации с помощью методов пространственно-временной фильтрации для локализации источников человеческой речи. Соответственно в случае перемещения обнаруженных лиц, диапазоны азимутов и углов мест, соответствующим областям обнаруженных лиц, будут корректироваться блоком обработки информации 1, что в свою очередь приведет к корректировке в реальном времени множества направлений, в котором будет осуществляться акустическое сканирование согласно описанному выше алгоритму.

В качестве устройства видеофиксации 3 может быть использована видеокамера, инфракрасная камера или иное устройство для видеозаписи, а в качестве блока обработки информации 1 используется промышленный контроллер или плата на базе микроконтроллера.

Блок определения атмосферного параметра окружающей среды 4 представляет собой один или несколько датчиков, размещенных на единой печатной плате, и обеспечивающих измерение атмосферных параметров окружающей среды таких, как температура, влажность, атмосферное давление окружающей среды и тд.

Все составные элементы заявленного устройства выполнены в виде единой конструкции, например, посредством их размещения на единой печатной плате или другим образом.

Для обеспечения обмена данными с внешними устройствами, такими как настольный компьютер, ноутбук, планшетный компьютер, смартфон и др., заявленное устройство дополнительно содержит интерфейс связи 6.

Основное отличие заявленного устройства от аналогов заключается в наличии блока определения атмосферного параметра окружающей среды и использовании устройства видеофиксации перед акустическим сканированием. Благодаря блоку определения атмосферного параметра окружающей среды оценивается реальное значение скорости звука в воздухе, которое необходимо при акустическом сканировании, чтобы обеспечить более точную локализацию источников человеческой речи, например, в уличных условиях, где скорость звука изменяется от 318 м/с до 348 м/с в зависимости от температуры, влажности, атмосферного давления и прочих атмосферных параметров окружающей среды. Благодаря акустическому сканированию в областях обнаруженных лиц шумовые области никакого влияния на результат акустического сканирования не окажут, вследствие чего также повышается точность локализации источников человеческой речи. Кроме того, используемая микрофонная решетка из MEMS микрофонов также оказывает положительный эффект на точность локализации источников человеческой речи, поскольку в отличие от микрофонов других типов, MEMS микрофоны высоким соотношением сигнал/шум и максимальной дальностью локализации источников звука.

Таким образом, заявленное решение обладает более высокой точностью локализации источников человеческой речи, чем известные аналоги. Кроме того, поскольку объем данных, получаемых при акустическом сканировании только в областях обнаруженных лиц с учетом атмосферных параметров окружающей среды, занимает меньший объем, чем объем данных, получаемых при таком же акустическом сканировании во всех направлениях, и за счет использования именно MEMS микрофонов содержит меньшее количество шумов, то заявленное решение обладает более высокой скоростью локализации источников человеческой речи, поскольку не требуются дополнительных операций по фильтрации источников шума, а блок обработки информации будет быстрее обрабатывать меньший объем данных и определять источники человеческой речи согласно описанному выше алгоритму.

Реферат

Полезная модель относится к измерительной технике, в частности к устройствам локализации источников человеческой речи, и могут использоваться в системах распознавания речи или в системах видеоконференций, а также в охранных или робототехнических изделиях для контроля желаемых объектов или событий. Техническим результатом заявленного решения является повышение точности определения источников человеческой речи. Устройство локализации источника голоса содержит связанные по общей шине данных: микрофонную решетку, состоящую из MEMS микрофонов; устройство видеофиксации, жестко закрепленное относительно микрофонной решетки; блок определения атмосферного параметра окружающей среды; память, хранящую таблицу зависимости значений скорости звука в воздухе от значений атмосферного параметра окружающей среды; и блок обработки информации. Указанный результат достигается за счет введения в устройство дополнительных программно-аппаратных средств, выполняющих акустическое сканирование только по диапазону азимутов и углов мест, соответствующих областям обнаружения лиц с учетом реального значения скорости звука в воздухе, зависящего от атмосферных параметров окружающей среды.

Формула

1. Устройство локализации источника голоса, содержащее связанные по общей шине данных: микрофонную решетку, состоящую из MEMS микрофонов; устройство видеофиксации, жестко закрепленное относительно микрофонной решетки; блок определения атмосферного параметра окружающей среды; память, хранящую таблицу зависимости значений скорости звука в воздухе от значений атмосферного параметра окружающей среды; и блок обработки информации, причем блок обработки информации выполнен с возможностью:

обнаружения лиц на видео на основе сигнала, получаемого от устройства видеофиксации;

определения значения скорости звука в зависимости от значения атмосферного параметра окружающей среды;

акустического сканирования окружающей среды с помощью упомянутой микрофонной решетки во множестве направлений, соответствующих областям обнаруженных лиц и определенных сформированной диаграммой направленности микрофонной решетки, с учетом определенного ранее значения скорости звука; и

локализации источников человеческой речи на основе данных акустического сканирования.

2. Устройство по п. 1, отличающееся тем, что блок обработки информации выполнен с возможностью сопровождения обнаруженных лиц на видео.

3. Устройство по любому из пп. 1 или 2, отличающееся тем, что содержит подключенный к общей шине данных интерфейс связи, обеспечивающий обмен данными с внешними устройствами.

4. Устройство по п. 1, отличающееся тем, что атмосферный параметр окружающей среды является параметром температуры окружающей среды.

5. Устройство по п. 1, отличающееся тем, что атмосферный параметр окружающей среды является параметром влажности окружающей среды.

6. Устройство по п. 1, отличающееся тем, что атмосферный параметр окружающей среды является параметром атмосферного давления окружающей среды.

7. Устройство по любому из пп. 4-6, отличающееся тем, что блок определения атмосферного параметра окружающей среды выполнен с возможностью определения дополнительного атмосферного параметра окружающей среды, а блок обработки информации выполнен с возможностью корректировки значения скорости звука в зависимости от значения дополнительного атмосферного параметра окружающей среды.

Авторы

Суворов Дмитрий Андреевич (RU)

Жуков Роман Алексеевич (RU)

Евмененко Антон Александрович (RU)

Тетерюков Дмитрий Олегович (RU)

Патентообладатели

Общество с ограниченной ответственностью ЛЕКСИ (ООО ЛЕКСИ) (RU)

СПК: G10L15/00 G10L21/055 G10L21/057

Публикация: 2017-04-18

Дата подачи заявки: 2016-09-02