Код документа: RU2187902C2
Изобретение относится к способам и устройствам распознавания речи в цифровом портативном телефоне и, более конкретно, к способам и устройствам для управления вводами речевой регистрации устройства распознавания речи для использования как в микротелефонной трубке, так и в комплекте громкоговорящей связи.
Предшествующий уровень техники
Обычно устройство распознавания речи выделяет характерные свойства, например, частотный признак, из входного речевого
сигнала для распознавания речевого ввода. В типовом случае устройство распознавания речи должно обрабатывать большое число речевых сигналов, что может привести к перегрузке микропроцессора, связанного
с устройством распознавания речи. Поэтому в известном способе распознавания речи, используемом с портативным телефоном, предусмотрен комплект громкоговорящей связи с функцией распознавания речи.
Устройство распознавания речи комплекта громкоговорящей связи распознает речевой сигнал, связанный с телефонным номером, произнесенным пользователем, и выдает результаты распознавания речи на портативный телефон (т.е. на микротелефонную трубку). Затем в микротелефонной трубке осуществляется набор телефонного номера, соответствующего результатам распознавания речи, полученным от комплекта громкоговорящей связи.
Поскольку устройство распознавания речи должно обрабатывать большое количество речевых сигналов и в результате должно иметь довольно большие габариты, то затруднительно установить устройство распознавания речи непосредственно на портативном телефоне. Кроме того, если устройство распознавания речи не может гарантировать быструю обработку, то устройство распознавания речи может в действительности создавать препятствия работе портативного телефона.
Для использования функции распознавания речи в устройстве громкоговорящей связи, такое громкоговорящее устройство требует использования, в числе прочих компонентов, цифрового процессора сигналов (ЦПС). Также необходима энергонезависимая память, такая как электронно стираемое программируемое постоянное запоминающее устройство (ЭСППЗУ). Однако если устройство распознавания речи устанавливается только в устройстве громкоговорящей связи, функция распознавания речи может быть реализована только через устройство громкоговорящей связи. Таким образом, при отделении от устройства громкоговорящей связи портативный телефон самостоятельно не может выполнять функцию распознавания речи.
Известно, что типовой портативный телефон включает в себя вокодер. Указанные выше проблемы могут быть решены, если портативный телефон распознает речь, используя пакетированные данные с выхода вокодера. В этом случае цифровой портативный телефон, использующий вокодер, может включать в себя устройство распознавания речи. Таким образом, цифровой портативный телефон, включающий в себя устройство распознавания речи и имеющий связанный с ним комплект громкоговорящей связи, может регистрировать и распознавать речевые сигналы, введенные либо с микротелефонной трубки, либо с комплекта громкоговорящей связи. Однако, принимая во внимание различные характеристики микрофонов и усилителей аудиосигналов, включенных в состав микротелефонной трубки и комплекта громкоговорящей связи, речевые сигналы для ввода одних и тех же слов соответственно через микротелефонную трубку и комплект громкоговорящей связи должны регистрироваться отдельно. Т.е. хотя одно и то же слово произносится одним и тем же лицом, однако речевой сигнал, введенный через микротелефонную трубку, может отличаться от речевого сигнала, введенного через комплект громкоговорящей связи, ввиду различных характеристик микрофонов и усилителей аудиосигнала, включенных соответственно в состав микротелефонной трубки и комплекта громкоговорящей связи. Поэтому хотя одна и та же информация вводится одним и тем же лицом, соответствующее устройство распознавания речи может распознать речевые сигналы, введенные через микротелефонную трубку и через комплект громкоговорящей связи, различным образом. Т.е. соответствующие процедуры распознавания речи, реализуемые микротелефонной трубкой и комплектом громкоговорящей связи, могут привести к получению различных результатов.
Поэтому устройство распознавания речи должно отдельно регистрировать одни и те же речевые сигналы, введенные через микротелефонную трубку и через комплект громкоговорящей связи соответственно. Кроме того, необходимо поддерживать одни и те же вводы регистрации речевого сигнала для микротелефонной трубки и комплекта громкоговорящей связи.
Сущность изобретения
Задачей настоящего
изобретения является создание способов и устройств для управления вводами речевой регистрации таким образом, чтобы ввод речевой регистрации для микротелефонной трубки совпадал с вводом речевой
регистрации для комплекта громкоговорящей связи.
Для достижения указанного результата в одном из аспектов настоящего изобретения предложен способ управления вводами речевой регистрации для использования как в микротелефонной трубке, так и в комплекте громкоговорящей связи. В данном способе определяется, установлена ли микротелефонная трубка в режим громкоговорящей связи ("со свободными руками"), когда микротелефонная трубка находится на рычаге, обеспечивая тем самым соединение с комплектом громкоговорящей связи. Если микротелефонная трубка установлена в режим громкоговорящей связи, то ввод речевой регистрации для микротелефонной трубки сравнивается с вводом речевой регистрации для комплекта громкоговорящей связи, для подсчета числа вводов и сравнения их между собой. Выполняется процесс распознавания, если разность чисел имеет минимальное значение, например, по существу нулевое. Если разность вводов больше, чем минимальное значение, то речевой ввод регистрируется для комплекта громкоговорящей связи в ответ на подтверждение пользователя. Если разность вводов меньше минимального значения, то речевой ввод регистрируется для микротелефонной трубки в ответ на подтверждение пользователя.
Указанные выше задачи, признаки и преимущества настоящего изобретения поясняются ниже в детальном описании его примеров осуществления, иллюстрируемых чертежами.
Краткое описание чертежей
Фиг.1 - блок-схема цифрового портативного телефона с устройством распознавания речи, в котором может быть использовано
настоящее изобретение.
Фиг.2 - диаграмма, отображающая карту памяти для первой памяти соответственно возможному варианту осуществления изобретения.
Фиг. 3 - блок-схема, иллюстрирующая управление вводами речевой регистрации устройства распознавания речи для использования в микротелефонной трубке и в комплекте громкоговорящей связи согласно настоящему изобретению.
Фиг.4 - блок-схема, иллюстрирующая регистрацию речи в области памяти для комплекта громкоговорящей связи согласно настоящему изобретению.
Детальное описание
предпочтительных вариантов осуществления изобретения
Предпочтительный вариант осуществления настоящего изобретения будет описан детально ниже со ссылками на иллюстрирующие чертежи. Для более
глубокого понимания сущности изобретения ниже будет приведено иллюстративное описание настоящего изобретения на примере конкретных вариантов осуществления. Однако следует иметь в виду, что настоящее
изобретение может быть реализовано специалистами в данной области техники и иным образом, чем конкретно представлено в описании. В последующем описании хорошо известные функции или конструкции, не
принципиальные для понимания сущности настоящего изобретения, опускаются, чтобы не загромождать сущность изобретения ненужными деталями.
На фиг.1 показана блок-схема, иллюстрирующая цифровой портативный телефон с устройством распознавания речи, к которому применимо настоящее изобретение. Хорошо известные схемы цифрового портативного телефона, такие как радиочастотная схема и схема двухтонального многочастотного набора (ДТМН) не показаны, поскольку они не принципиальны для понимания сущности настоящего изобретения.
Согласно фиг. 1 аналоговый речевой сигнал, введенный с микрофона 30, преобразуется в цифровой сигнал импульсно-кодовой модуляции (ИКМ) с помощью аналого-цифрового преобразователя (АЦП) 20. Вокодер 45 сжимает ИКМ-сигнал с выхода АЦП 20 и выдает пакетированные данные (ПД). В сотовом телефоне режима множественного доступа с кодовым разделением (МДКР) каналов вокодер 45 может быть реализован с помощью QCELP-кодера компании Квэлкомм, реализующего процедуру кодирования на основе линейного предсказания с кодовым возбуждением, для скорости передачи 8 кбит/с или 13 кбит/с, или EVRC-кодера, реализующего процедуру усовершенствованного кодирования с переменной скоростью для скорости 8 кбит/с, а в сотовом телефоне глобальной системы мобильной связи (GSM) вокодер 45 может быть реализован в виде RPE-LTP-кодера, реализующего процедуру кодирования с использованием регулярного импульсного возбуждения с долговременным предсказанием.
Пакетные данные ПД с выхода вокодера 45 подаются на микропроцессор 50, который управляет работой портативного телефона в целом. Первая память 60, представляющая собой энергонезависимую память (например, флэш-память или ЭСППЗУ), хранит управляющую программу и исходные сервисные данные. Вторая память 65, представляющая собой запоминающее устройство с произвольной выборкой (ЗУПВ), временно хранит данные, включая пакетированные данные для входных речевых сигналов, которые должны регистрироваться или распознаваться, и различные данные, генерируемые в процессе работы портативного телефона. Устройство распознавания речи 85 выделяет данные характерных признаков из пакета данных для входных речевых сигналов и выдает данные характерных признаков, предпочтительно со скоростью передачи 20 бит/с. Признак частоты и интенсивность входного речевого сигнала включены в данные характерных признаков. Следует иметь в виду, что данные характерных признаков используются для распознавания речи.
Устройство распознавания речи 85 может быть реализовано как с помощью аппаратных средств, так и с помощью программного обеспечения. В случае, когда устройство распознавания речи 85 реализовано с помощью программного обеспечения, программа, реализующая устройство 85 распознавания речи, может храниться в первой памяти 60. Микропроцессор 50 доставляет пакетированнные данные ПД с выхода вокодера 45 на устройство 85 распознавания речи, и обеспечивает набор телефонного номера согласно индексным данным с выхода устройства 85 распознавания речи. Кроме того, микропроцессор 50 запоминает в своей внутренней памяти адрес первой памяти 60, где хранятся пакетированные данные с выхода вокодера 45, и считывает пакетированные данные из первой памяти 60 с использованием адреса, когда пользователь информируется о том, что произнесенные им речевые данные полностью распознаны. Для удобства считанные пакетированные данные определены как данные воспроизведения речи (ДВР). Вокодер 45 преобразует данные воспроизведения речи ДВР в ИКМ-сигнал и подает его на цифроаналоговый преобразователь (ЦАП) 75, который преобразует входной ИКМ-сигнал в аналоговый сигнал и выдает преобразованный аналоговый сигнал через громкоговоритель 80. Вместо данных воспроизведения речи ДВР, в первой памяти 60 может также сохраняться речевое сообщение, информирующее о завершении процедуры распознавания речи и выдаваемое аналогичным способом.
Разъем 500 комплекта громкоговорящей связи включает в себя рычаг, имеющий датчик, определяющий, установлен ли комплект громкоговорящей связи в рычаге для микротелефонной трубки портативного телефона. Кроме того, разъем 500 комплекта громкоговорящей связи включает в себя гнездо для соединения сигнальной линии и зарядной линии между комплектом громкоговорящей связи и микротелефонной трубкой. Если сигнальная линия подключена, то речевой сигнал, введенный с микрофона комплекта громкоговорящей связи, подается на АЦП 20, который преобразует введенный речевой сигнал в цифровой ИКМ-сигнал и выдает ИКМ-сигнал на вокодер 45. Кроме того, разъем 500 комплекта громкоговорящей связи соединен с конкретным портом микропроцессора 50, так что микропроцессор 50 может определить, принят ли входной речевой сигнал от микрофона 30 портативного телефона или от микрофона комплекта громкоговорящей связи.
На фиг.2 представлена карта памяти для первой памяти 60 согласно возможному варианту осуществления изобретения. Как показано на чертеже, первая память 60 содержит первую область памяти ОП1 для индексных данных, вторую область памяти ОП2 для речевой информации, введенной с микротелефонной трубки, и третью область памяти ОП3 для речевой информации, введенной с комплекта громкоговорящей связи. Вторая область памяти ОП2 разделена на первую подобласть памяти ПП1 для данных признаков ДПТ1, введенных с микротелефонной трубки, вторую подобласть памяти ПП2 для данных признаков ДПТ2, введенных с микротелефонной трубки, третью подобласть памяти ПП3 для данных воспроизведения речи ДВР, введенных с микротелефонной трубки, и четвертую подобласть памяти ПП4 для телефонного номера, введенного с микротелефонной трубки. Аналогичным образом, третья область памяти ОП3 разделена на первую подобласть памяти ПП1 для данных признаков ДПК1, введенных с комплекта громкоговорящей связи, вторую подобласть памяти ПП2 для данных признаков ДПК2, введенных с комплекта громкоговорящей связи, третью подобласть памяти ПП3 для данных воспроизведения речи ДВР, введенных с комплекта громкоговорящей связи, и четвертую подобласть памяти ПП4 для телефонного номера, введенного с комплекта громкоговорящей связи.
Например, индексные данные И1 включают в себя адреса, где хранятся данные признаков ДПТ1 и ДПТ2, введенные с микротелефонной трубки, и данные признаков ДПК1 и ДПК2, введенные с комплекта громкоговорящей связи, адреса, где хранятся телефонные номера, введенные соответственно с микротелефонной трубки и с комплекта громкоговорящей связи, и адреса, где хранятся данные воспроизведения речи ДВР, введенные соответственно с микротелефонной трубки и с комплекта громкоговорящей связи. Как вариант, вместо первой области памяти ОП1 для индексных данных, портативный телефон может включать в себя адресный генератор.
Как показано, вторая и третья области памяти ОП2 и ОП3 содержат первую и вторую подобласти памяти ПП1 и ПП2 для хранения двух наборов данных признаков ДПТ1, ДПТ2, ДПК1, ДПК2, выделенных из речевых сигналов, введенных соответственно с микротелефонной трубки и с комплекта громкоговорящей связи.
Это объясняется тем, что речевые сигналы, хотя и произнесенные одним и тем же пользователем, могут, однако, отличаться друг от друга при каждом произнесении их пользователем. Поэтому опорные данные признаков выделяются дважды для одного и того же слова, которое произносится пользователем, и сохраняются отдельно в двух подобластях памяти ПП1 и ПП2.
На фиг.3 показана блок-схема, иллюстрирующая управление вводами речевой регистрации устройства распознавания речи, предназначенного для использования как в микротелефонной трубке, так и в комплекте громкоговорящей связи, в соответствии с изобретением. Как показано на фиг.3, микропроцессор 50 на этапе 410 проверяет разъем 500 комплекта громкоговорящей связи, чтобы определить, находится ли портативный телефон в режиме громкоговорящей связи, т.е. установлена ли микротелефонная трубка на рычаг, тем самым обеспечивая соединение с комплектом громкоговорящей связи через гнездо. Если портативный телефон находится в режиме громкоговорящей связи, микропроцессор 50 на этапе 420 вычисляет разность номеров ввода "d" путем вычитания номера ввода регистрации для комплекта громкоговорящей связи из номера ввода регистрации для микротелефонной трубки. На этапе 430 микропроцессор 50 проверяет, равна ли разность номеров ввода "d" нулю или отлична от нуля. Если она равна нулю, то микропроцессор 50 на этапе 440 выполняет процедуру распознавания речи. Однако если разность номеров ввода "d" не равна нулю, то микропроцессор 50 на этапе 450 проверяет, не является ли разность номеров ввода "d" большей нуля. Если она больше нуля, то микропроцессор 50 на этапе 460 регистрирует информацию речевого ввода в третьей области памяти ОП3 и увеличивает ввод речевой регистрации для комплекта громкоговорящей связи на единицу. Однако если разность номеров ввода "d" меньше нуля, то микропроцессор 50 на этапе 470 регистрирует информацию речевого ввода во второй области памяти ОП2 и увеличивает ввод речевой регистрации для микротелефонной трубки на единицу. Предпочтительно, пользователю предлагается подтвердить регистрацию, прежде чем такая регистрация будет выполнена, как будет пояснено ниже.
На фиг.4 показана блок-схема алгоритма, иллюстрирующая регистрацию речевой информации в третьей области ОП3 в соответствии с настоящим изобретением. Процедура, представленная на фиг. 4, состоит в том, чтобы обеспечить совпадение ввода речевой регистрации для комплекта громкоговорящей связи с вводом речевой регистрации для микротелефонной трубки в случае, когда совокупность речевой информации, зарегистрированной во второй области памяти ОП2, превышает по числу совокупность речевой информации, зарегистрированной в третьей области памяти ОП3. На этапе 510 микропроцессор 50 выдает первое речевое сообщение, запрашивающее, регистрируется ли речевая информация, на громкоговоритель 80 через ЦАП 75. В данном случае первое речевое сообщение может иметь вид: "Вы должны зарегистрировать имя через комплект громкоговорящей связи. Если Вы хотите зарегистрировать имя, то нажмите кнопку "*". На этапе 520 микропроцессор 50 определяет, нажата ли кнопка "*". Если кнопка "*" не нажата, то микропроцессор 50 на этапе 530 определяет, прошло ли предварительно определенное время, например 3 секунды. Если предварительно определенное время прошло, микропроцессор 50 завершает программу, подтверждая, что пользователь не имеет намерения регистрировать речевую информацию для незарегистрированного имени. Если предварительно определенное время не прошло, то процедура возвращается к этапу 520 для повторной проверки, нажата ли кнопка "*".
На этапе 540 микропроцессор 50 выдает второе речевое сообщение, помогающее пользователю зарегистрировать речевой ввод, который был зарегистрирован только через микротелефонную трубку, но не был зарегистрирована через комплект громкоговорящей связи. Например, второе речевое сообщение может иметь вид: "Пожалуйста, повторите имя за мной: Дэвид". Здесь начальное речевое сообщение "Пожалуйста, повторите имя за мной" считывается из определенной области памяти в первой памяти 60, а следующее за ним речевое сообщение "Дэвид" считывается из третьей подобласти памяти ПП3 во второй области памяти ОП2 для микротелефонной трубки. По звуковому сигналу второго речевого сообщения пользователь будет повторять имя "Дэвид" с использованием микрофона в комплекте громкоговорящей связи. Затем речевой сигнал, введенный с микрофона в комплекте громкоговорящей связи через разъем 500 комплекта громкоговорящей связи, преобразуется в цифровой ИКМ-сигнал с помощью АЦП 20 и подается на вокодер 45, который кодирует ИКМ-сигнал и выдает на выход пакетированные данные ПД. Затем на этапе 550 микропроцессор 50 определяет, получены ли пакетированные данные ПД с вокодера 45. Если пакетированные данные ПД получены, то микропроцессор на этапе 560 выдает третье речевое сообщение, предлагающее пользователю вновь произнести имя. Например, третье речевое сообщение может иметь вид: "Пожалуйста, произнесите имя вновь". Микропроцессор 50 на этапе 570 проверяет, приняты ли от вокодера пакетированные данные ПД для второго произнесенного имени. Если пакетированные данные ПД приняты, микропроцессор 50 на этапе 580 сравнивает данные признаков для первого речевого ввода с данными признаков для второго речевого ввода с помощью устройства 85 распознавания речи. Если разница между данными признаков для первого речевого ввода и для второго речевого ввода меньше, чем предварительно определенное значение, микропроцессор 50 определяет, что два речевых ввода сходны друг с другом и на этапе 590 запоминает оба речевых ввода (т.е. данные признаков ДП1 и ДП2) в первой и второй подобластях памяти ПП1 и ПП2 третьей области памяти ОПЗ первой памяти 60 с помощью устройства 85 распознавания речи. После этого на этапе 600 микропроцессор 50 выдает четвертое речевое сообщение, информирующее о завершении речевой регистрации, например, в виде: "Речевая регистрация завершена". Однако если оба речевых ввода не сходны друг с другом, то на этапе 580 микропроцессор 50 на этапе 610 выдает пятое речевое сообщение, информирующее, что первый речевой ввод отличен от второго речевого ввода (т.е. разница между ними больше, чем предварительно определенное значение). Например, пятое речевое сообщение может иметь вид: "Имена, которые Вы произнесли, отличаются друг от друга. Пожалуйста, зарегистрируйте имя вновь". После этого процедура с этапа 610 возвращается к этапу 540.
Следует иметь в виду, что процедура регистрации речевого ввода во второй области памяти ОП2 для микротелефонной трубки предпочтительно реализуется точно таким же образом, как описано выше для комплекта громкоговорящей связи. Такая процедура выполняется для того, чтобы обеспечить совпадение речевой регистрации ввода для микротелефонной трубки с речевой регистрацией ввода для комплекта громкоговорящей связи в случае, когда совокупность зарегистрированной речевой информации в третьей области памяти ОП3 больше по числу, чем совокупность речевой информации, зарегистрированной во второй области памяти ОП2.
Как описано выше, портативный телефон, соответствующий изобретению, может помогать пользователю поддерживать одни и те же вводы речевой регистрации для микротелефонной трубки и для комплекта громкоговорящей связи.
Хотя примеры осуществления изобретения были описаны выше со ссылками на иллюстрирующие чертежи, следует иметь в виду, что изобретение не ограничивается данными конкретными вариантами осуществления, и что специалисты в данной области техники могут производить различные видоизменения и модификации без отклонения от объема и сущности изобретения.
Изобретение относится к телефонии. Его использование в цифровом портативном телефоне с набором громкоговорящей связи позволяет получить технический результат в виде возможности совместного ввода речевой регистрации как в микротелефонной трубке, так и в комплекте громкоговорящей связи. Этот результат достигается благодаря тому, что в способе определяют, установлена ли микротелефонная трубка в режим громкоговорящей связи, при котором микротелефонная трубка устанавливается на рычаг, обеспечивая тем самым соединение с комплектом громкоговорящей связи, сравнивают номера ввода речевой регистрации для микротелефонной трубки с номером ввода речевой регистрации для комплекта громкоговорящей связи, чтобы вычислить значение разности номеров вводов между ними, если микротелефонная трубка установлена в режим громкоговорящей связи, выполняют процедуру распознавания речи, если значение разности номеров вводов по существу равно нулю, и регистрируют речевой ввод для комплекта громкоговорящей связи в ответ на подтверждение пользователя, если значение разности номеров вводов больше или меньше нуля. 4 с. и 13 з.п.ф-лы, 4 ил.
Телефонный автоответчик