Код документа: RU2668062C2
ОБЛАСТЬ ТЕХНИКИ
Настоящий патент относится к области обработки цифровых данных и, более конкретно, к обработке синтеза речи и интерактивных диалогов, конкретно, в специфическом контексте разговора между роботом и человеком-пользователем.
УРОВЕНЬ ТЕХНИКИ
Роботы-товарищи предпочтительно могут устанавливать эмоциональные взаимоотношения с людьми. Динамические видоизменения диалогов с помощью речи или вариантов воспроизведения диалога могут обеспечить разнообразные варианты взаимодействия.
Существующие системы для синтеза речи или голоса являются в большинстве своем пассивными и однообразными: помимо нескольких опций, таких как выбор мужского или женского голоса, тон механизма генерации речи является скорее нейтральным. Кроме того, обеспечиваемые ответы испытывают недостаток в культурных отсылках. Более точно, целью систем с речевыми ответами для промышленности или массового рынка является обеспечение повсеместно принятых ответов, т.е., обеспечение как можно более широкого понимания ответов. Это предполагает устранение любых контекстуальных и, тем более, культурных отсылок. Речевые команды обычно ограничены конкретными вариантами контекста. Например, программное обеспечение для речевого ввода обычно используется в контексте автономного программного приложения (например, программного обеспечения для обработки текстов). Согласно некоторым характеристикам доступности, все в большей степени обеспечиваемым современными операционными системами, пользователи могут использовать речевые команды для выполнения некоторых действий (например, запуска приложения, копирования и вставки, и т.д.). Эти предварительно заданные действия являются довольно ограниченными. Такие режимы визуального или звукового взаимодействия являются обычно пассивными (например, пользователи активно отдают приказы, а машина исполняет эти приказы). Даже с появлением последних моделей взаимодействия с компьютерами, таких как, например, модели, реализованные в системах с ответами, между машиной и пользователем возможны ограниченные варианты взаимодействий.
В контексте человекоподобного робота-товарища, модель взаимодействия с людьми-пользователями существенно отличается от модели взаимодействия с персональными компьютерами (и другими их формами). Когнитивное взаимодействие с роботом фундаментально отличается от взаимодействия с планшетным персональным компьютером или смартфоном. Конкретно, способность модулировать синтез речи робота может быть выгодным, если не ключевым, для обеспечения разнообразных вариантов взаимодействия, что, в свою очередь, может обеспечить возможность сбора релевантных данных и улучшения услуг, обеспечиваемых роботом или подключенными устройствами.
Существует потребность в способах и системах обработки синтеза речи (формы) и соответствующих интерактивных диалогов (содержания), конкретно, в специфическом контексте разговора между роботом и человеком-пользователем.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Раскрыт реализуемый компьютером способ обработки звукового диалога между роботом и человеком-пользователем, причем этот способ содержит: во время упомянутого звукового диалога, прием звуковых данных и преобразование упомянутых звуковых данных в текстовые данные; в ответ на верификацию одного или нескольких правил выполнения диалогового режима для упомянутых текстовых данных, выбор модифицированного диалогового режима; причем, диалоговый режим содержит один или несколько вариантов диалогового контента и один или несколько вариантов диалоговой речи; причем вариант диалогового контента содержит набор предварительно заданных высказываний, причем упомянутый набор содержит вопросительные высказывания и ответные высказывания; и, причем, вариант диалоговой речи содержит параметры воспроизведения речи, содержащие частоту, тон, скорость и высоту звука.
В одном развитии, способ дополнительно содержит выполнение упомянутого выбранного модифицированного диалогового режима.
В одном развитии, модифицированный диалоговый режим получают посредством модификации текущего варианта диалогового контента и/или текущего варианта диалоговой речи из текущего диалога.
В одном развитии, этап модификации текущего варианта диалогового контента содержит использование синонимов слов упомянутого варианта диалогового контента и применение синтаксических модификаций, содержащих вставку или перестановку или замену одного или нескольких слов упомянутого варианта диалогового контента.
В одном развитии, этап модификации текущего варианта диалоговой речи содержит модификацию частоты и/или тона и/или скорости и/или высоты звука текущего варианта диалоговой речи.
В одном развитии, модифицированный диалоговый режим получают посредством активации предварительно заданного диалогового режима, причем упомянутый предварительно заданный диалог выбирают по одному или нескольким правилам выполнения диалога, и упомянутый предварительно заданный диалоговый режим содержит предварительно заданный вариант диалогового контента и/или предварительно заданный вариант диалоговой речи.
В одном развитии, правило выполнения диалогового режима является зависимым от среды, воспринимаемой роботом.
В одном развитии, правило выполнения диалогового режима содержит параметры, выбранные из списка, содержащего возраст пользователя, пол пользователя, настроение пользователя, эмоцию пользователя, количество пользователей, историю взаимодействия с пользователем, предпочтения пользователя, пространственное местоположение робота и/или пользователя, жест или комбинацию жестов робота и/или пользователя, событие, обнаруженное в среде робота, локальную погоду, геолокацию, дату, время и их комбинации.
В одном развитии, правило выполнения диалогового режима динамически извлекают из интернета, и/или оно конфигурируется пользователем.
В одном развитии, один или несколько вариантов диалогового контента или их выбор модерируют применением одного или нескольких фильтров, причем упомянутые фильтры содержат черные списки одного или нескольких слов, белые списки одного или нескольких слов и/или правила выполнения диалогового режима.
В одном развитии, вариант диалогового контента и/или вариант диалоговой речи выбирают посредством речевой команды или пользовательского запроса.
В одном развитии, способ дополнительно содержит идентификацию отсутствующего диалогового режима, извлечение и установку упомянутого отсутствующего диалогового режима в роботе во время диалога с пользователем. В одном развитии, способ дополнительно содержит прием подтверждения пользователя перед выполнением выбранного диалогового режима. В одном развитии, способ дополнительно содержит прием сообщения обратной связи от пользователя после выполнения модифицированного диалогового режима. В одном развитии, этапы способа могут быть итерированы (например, диалоговый режим может быть дополнительно модифицирован).
Раскрыта компьютерная программа, содержащая инструкции для выполнения одного или нескольких этапов этого способа, когда упомянутая компьютерная программа исполняется на подходящем компьютерном устройстве или роботизированном устройстве. Раскрыта система, система, содержащая средство, выполненное с возможностью выполнения одного или нескольких этапов этого способа.
Робот-товарищ обычно является многорежимным. Речевые взаимодействия образуют критическую часть взаимодействия с пользователями, наряду с перемещениями, которые характеризуют робота, в отличие от персонального компьютера и других его форм. Диалоги между пользователем и роботом могут улучшить или персонализировать взаимодействия и, в конечном счете, улучшить восприятие пользователя. В одном варианте осуществления, робот адаптируется к текущему воспринимаемому контексту посредством видоизменений своих диалоговых режимов. Робот, например, может обратиться к иностранцу «Господин» или может использовать фамилию человека, если это разрешалось раньше, может говорить более или менее формально в зависимости от пользователей и/или контекста. Конкретные слова также могут фильтроваться в зависимости от пользователей, истории, информации обратной связи, вариантов настроения, местоположения, даты и времени (например). Когда человек не понимает высказывание, робот может повторить его медленнее и/или с использованием синонимов, если его попросят сделать это или по своей собственной инициативе. Робот также может обучаться предпочтениям пользователя (говорить более или менее быстро с использованием лексики пользователя), что может улучшить настроение пользователя.
Предпочтительно, робот может реализовать расширения новых языков, что делает каждого робота уникальным, инициировать положительные эмоции и, таким образом, укрепить взаимоотношения робота с людьми.
Предпочтительно, согласно некоторым вариантам осуществления, взаимодействие человек-машина является активным и больше не пассивно: робот, с точки зрения человека, может брать на себя некоторые инициативы (например, робот может задавать вопросы, например, в целях устранения неоднозначности). Кроме того, с использованием адаптированных вариантов диалогового контента или образцов, выражаемых в персонализированной или иной релевантной форме, взаимодействие человек-машина дополнительно оптимизируется.
Предпочтительно, разговорный режим взаимодействия обеспечивает возможность более «интимных» «взаимоотношений» с пользователем, по меньшей мере все более «естественного» взаимодействия. Это лучшее восприятие пользователя может, по всей вероятности, привести к большему «пониманию» человека-пользователя машиной. Соответствующая «близость» с машиной, предполагаемая и подкрепляемая релевантными вариантами речи и/или диалоговыми высказываниями, может облегчить сбор данных от пользователя и о пользователе. Как пользователь, так и робот может быть более «экспрессивным». Термин «экспрессивность» относится к тому факту, что поскольку взаимодействие человек-машина становится (более) естественным, пользователь передает больше данных роботу, который, в свою очередь, может узнавать и запоминать больше данных о пользователе, что дополнительно обогащает взаимодействия в эффективном цикле. Этого нельзя сказать о персональном компьютере. Планшет может пытаться задавать «вопросы», например, в форме опроса или анкеты или посредством синтеза речи, но планшет не рассматривается в качестве «товарища», который может (автономно) перемещаться сам по себе, перемещать объекты или следовать за людьми, так что остаточное предубеждение против планшета в качестве товарища сохранится. Количество данных, которое может быть захвачено, будет меньшим по сравнению с роботом-товарищем. Тот факт, что робот-товарищ может использовать смешные или иные релевантные варианты речи или диалоговые образцы, усиливает эту способность захватывать данные.
Активно или пассивно собираемая информация о пользователе (например, профиль пользователя или декларируемые предпочтения пользователя) может быть использована в качестве входных данных для условий запуска (например, вариант речи или диалоговый образец должен быть запущен, только если пользователь любит "Bienvenue chez les Ch'tis"). Могут быть обеспечены механизмы машинного обучения: варианты речи или диалоговые образцы, которые запускаются или исполняются системой, будут развиваться в зависимости от того, что изучено о пользователе.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Варианты осуществления настоящего изобретения будут теперь описаны в качестве примера со ссылкой на сопутствующие чертежи, в которых одинаковые ссылочные позиции обозначают подобные элементы, и в которых:
Фиг. 1 иллюстрирует глобальную техническую среду настоящего изобретения;
Фиг. 2 детализирует некоторые аспекты одного варианта осуществления данного способа.
ПОДРОБНОЕ ОПИСАНИЕ
«Диалог» содержит предварительно подготовленные высказывания. Диалог является набором предварительно заданных высказываний, включающих в себя ответы на вопросы. Ожидаемые ответы на множество вопросов составляют диалог.
«Диалоговый режим» содержит одну или несколько операций модификации, которые действуют как на содержание («диалоговый образец» или «вариант диалогового контента»), так и на форму («вариант речи» или «вариант представления речи») планируемого высказывания. Другими словами, «диалоговый режим» связан с содержательным аспектом (например, фактическим контентом или информацией, передаваемой сообщением) и с формальным аспектом (например, экспрессивностью или эмоциями или тонами устной речи). Диалоговые режимы могут быть реализованы в форме загружаемых программ программного обеспечения, причем упомянутые программы содержат инструкции, которые, при исполнении на подходящем роботизированном устройстве, обеспечивают выполнение упомянутым роботизированным устройством конкретных физических действий, содержащих выполнение запрограммированных диалоговых режимов (вариантов диалогового контента и/или вариантов речи). Программа программного обеспечения может быть обеспечена в виде «модуля расширения» или «интегрируемого программного модуля» или «расширения». Дополнительные диалоговые режимы могут быть объединены с принимаемым по умолчанию вариантом диалогового контента и вариантом речи робота или могут быть добавлены к ним или могут заменить их. В одном варианте осуществления, диалоговые режимы могут быть вызваны в виде услуг для других приложений программного обеспечения, установленных в роботе. Например, приложение погоды может использовать голос Дарта Вейдера в некотором контексте (например, при полнолунии). Диалоговые режимы и/или соответствующие правила выполнения могут быть доступными через сеть или могут быть доступными локально. В некоторых вариантах осуществления, они могут быть дополнены или пополнены возможностями доступа к сетям и удаленным базам знаний.
«Вариант диалогового контента» или «диалоговый образец» или «диалоговая тема» относится к набору предварительно заданных высказываний, причем упомянутые высказывания соответствуют вопросам и (ожидаемым или прогнозируемым или возможным) ответам, например, в отношении некоторой темы или предмета обсуждения или интересующей области (но не обязательно, когда может быть предусмотрен общий диапазон высказываний). Синтаксические модификации могут модифицировать содержание существующих вариантов диалогового контента, установленных в роботе (например, вставка превосходной степени, такой как «супер», перестановки слов, и т.д.). Варианты диалогового контента или диалоговые образцы могут подвергать некоторые слова цензуре (например, использование определенных слов может быть запрещено, будь то бинарное запрещение или запрещение согласно вероятностям или порогам), некоторые другие слова могут быть разрешены, или использование некоторых слов может поощряться (предубеждение). Варианты диалогового контента или диалоговые образцы, конкретно, могут содержать (или добавлять, при модификации) содержательные варианты контента и другие культурные отсылки. Выбор слов может зависеть от контекста и может содержать аллюзии или культурные отсылки. Таким образом, диалог может содержать один или несколько вариантов диалогового контента (предварительно подготовленные диалоги, составленные из высказываний). Например, вместо только своего коммерческого наименования, игровое приложение может быть известно роботу как «игра с птицами и зелеными свиньями» или «игра, в которой ты должен бросать птиц в мишени» и т.п. Эти мета-описания, составленные из высказываний, возможно, вопросов и ответов, образуют варианты диалогового контента. Такие варианты диалогового контента обеспечивают роботу возможность разговаривать с пользователем. Например, если пользователь просит: «Я хочу поиграть с птицами», то робот может дополнительно спросить: «Ты хочешь поиграть с реальными птицами или с виртуальными птицами?». Если пользователь ответит: «С виртуальными птицами», то робот может попросить подтверждение: «Итак, ты хочешь поиграть в игру?!». Если пользователь ответит: «Да», то робот может еще дополнительно попросить подтверждение, например: «У меня есть игра, в которой ты должен бросать птиц в зеленых свиней».
«Вариант воспроизведения диалога» или «вариант речи (голоса)» относится к модификациям звукового воспроизведения. Такие модификации звукового воспроизведения влияют на «форму» (например, частоту, скорость, высоту звука и тон). Другими словами, применение варианта речи может радикально изменять экспрессивность роботов без модификации лежащих в основе предварительно подготовленных высказываний. Воздействие модификации речевого взаимодействия с роботами может быть оценено на разных уровнях: в отношении контента (содержания) и/или формы (тонов и т.д.). Вариант речи может содержать параметры, которые обеспечивают имитацию некоторых голосов. Многообразие речевых параметров можно обрабатывать для управления синтезом речи. Речевые параметры содержат частоту (определение того, будет ли робот говорить более четко или глубоко), скорость (насколько быстро или медленно робот будет говорить), тон (например, если актер Сильвестр Сталлоне и персонаж Магистр Йода будут говорить с одинаковой скоростью и частотой, они не будут иметь одинаковый тон). В одном варианте осуществления, пользователь может потребовать, чтобы его робот-товарищ говорил как Магистр Йода или Сильвестр Сталлоне. Посредством соответствующей модификации речевых параметров с использованием предварительно заданных речевых параметров, могут быть получены результаты аппроксимации. Имитации «на лету» (оперативно) являются правдоподобными (запись звуковых отрывков, установление параметров и применение релевантных модификаций) и могут обеспечить роботу возможность имитации одного или нескольких пользователей. В одном варианте осуществления, множество вариантов речи может быть объединено. Некоторые варианты речи могут оказаться несовместимыми при объединении (взаимно исключающими). Некоторые другие варианты речи могут быть объединены до некоторой степени. Некоторые другие варианты речи могут быть аддитивными.
«Правила выполнения диалогов» относятся к правилам выполнения, которые управляют применением одного или нескольких вариантов речи и/или вариантов диалогового контента или диалоговых образцов. «Правило выполнения» может содержать сценарии, программный код или иные булевы выражения или логические правила, которые обеспечивают возможность видоизменения фраз, которые робот может произносить (словарный запас, добавление некоторых выражений перед высказыванием или в его конце, и т.д.). Каждый раз, когда робот собирается сказать что-нибудь человеку-пользователю (например, поскольку робот пытается ответить на вопрос или устранить неоднозначность ситуации), если планируемое высказывание робота не соответствует одному или нескольким правилам выполнения вариантов воспроизведения диалогов, то высказывание будет модифицировано согласно этим правилам, и затем робот произнесет его. В одном варианте осуществления, одно или несколько правил выполнения диалогов могут быть применены к одному или нескольким высказываниям (т.е., высказываниям, запланированным для произнесения роботом). В одном варианте осуществления, упомянутые правила могут быть применены к каждому высказыванию, подлежащему произнесению роботом. В одном варианте осуществления, эти правила могут быть применены к подмножеству высказываний, например, к тем высказываниям, которые содержат предварительно заданные слова или выражения. Правила выполнения диалогов могут быть заданы предварительно. Правила выполнения диалогов могут быть динамически извлечены из интернета. Некоторые правила могут быть аддитивными, в то время как другие правила могут быть взаимно исключающими. Например, правило выполнения может содержать (например, кодировать) возрастной предел. Могут быть использованы или применены совокупные правила выполнения. Например, конкретный вариант речи может быть авторизован перед пользователями старше 12 лет и/или согласно некоторым ситуациям (время дня, измеренные эмоции в аудитории, и т.д.). Некоторые правила выполнения могут быть конфигурируемыми пользователями (например, родительский контроль).
В качестве примера, высказывание: «Я могу станцевать сейчас», соответствует стандартной предварительно заданной фразе (записанной в памяти робота). «Я могу станцевать сейчас hein biloute» соответствует фразе, высказываемой роботом после применения диалогового образца, именуемого «Ch'tis». Вариант воспроизведения звука или вариант речи «Ch'tis» может (необязательно) дополнительно обеспечивать соответствующие звуковые модуляции. Форма и содержание могут быть различным образом модифицированы: могут быть добавлены конкретные акценты или интонации (например, форма «Северная Франция»), может быть обогащен словарный запас, используемый роботом, могут быть добавлены новые разговорные темы (например, модели вопросов и ответов).
Диалоговые режимы (варианты диалогового контента и/или варианты воспроизведения диалогов) могут быть реализованы в пакетах программного обеспечения, которые могут быть определены или запрограммированы редакторами программного обеспечения. Такое программное обеспечение может быть модифицируемым или немодифицируемым. Другими словами, диалоговый режим (например, вариант речи) может быть полностью определенным (например, никакая дополнительная параметризация не может быть официально разрешена). Альтернативно, диалоговый режим может быть только частично определенным. Например, некоторые (например, конечное количество) локальные параметры могут оставаться под управлением конечных пользователей, в то время как большинство установочных параметров не могут быть изменены (для поддержания общей целостности варианта речи, например).
Другими словами, приложение программного обеспечения, помимо буквального значения (компьютерный программный код, который, при исполнении на подходящем компьютерном устройстве, может выполнить один или несколько этапов), может быть вариантом диалогового контента (или может быть связан с ним) (например, может быть набором предварительно заданных высказываний, включающих в себя ответы на ожидаемые вопросы) и/или вариантом речи (например, запрограммированным наряду с вариантами диалогового контента, т.е., правилами выполнения, такими как видоизменения в виде функций среды, синхронизации с перемещениями головы, активизации средств освещения, при наличии, и т.д.) и их комбинаций (например, диалог в танце). Приложения программного обеспечения могут быть взаимозависимыми. В качестве результата многорежимных выходных данных, приложения программного обеспечения могут быть дополнительно объединены (на уровнях выходных данных или на более низких уровнях, например, переменные или параметры или сценарии могут совместно использоваться или модифицироваться приложениями программного обеспечения). Например, робот может сопровождать высказываемый результат: «Снаружи -10°C», комбинацией жестов, символизирующих то, что снаружи холодно.
Приложения программного обеспечения предпочтительно могут быть представлены пользователю через диалоговый интерфейс, т.е., во время последовательности действий («естественного») диалога с пользователем. Другими словами, диалоговая система может действовать подобно «бутылочному горлышку» для того, чтобы пользователь мог запустить или выполнить одно или несколько приложений.
Фиг. 1 иллюстрирует глобальную и техническую среду настоящего изобретения. Робот 130 содержит датчики и исполнительные механизмы. Логика «интеллекта» 100 реализована в роботе или связана с ним (например, удаленно) и содержит набор программного обеспечения 110 и аппаратные компоненты 120. Робот 130 взаимодействует (посредством двусторонних или двунаправленных средств 140 связи, включающих в себя один или несколько диалоговых сеансов) с одним или несколькими пользователями 150. Упомянутые один или несколько пользователей могут осуществлять доступ к другим вычислительным устройствам 160 (например, (например, персональному компьютеру, такому как переносной компьютер или смартфон или планшет), которые могут быть подключенными устройствами (могут иметь связь с облаком серверов и/или множеством других роботов или подключенных объектов и т.д.). Конкретно, подключенное устройство может быть переносным компьютером (например, часами, очками, шлемом с эффектом присутствия и т.д.).
Конкретный робот 130 на фигуре приведен только в качестве примера человекоподобного робота, в котором может быть реализовано настоящее изобретение. Нижняя конечность робота на фигуре не функциональна для ходьбы, но может перемещаться в любом направлении на своем основании, которое может катиться по поверхности, на которой оно находится. Настоящее изобретение может быть легко реализовано в роботе, который подходит для ходьбы.
В некоторых вариантах осуществления настоящего изобретения, робот может содержать различные виды датчиков. Некоторые из них используются для контроля положения и перемещений робота. Это имеет место в случае, например, инерциального блока, расположенного в туловище робота, содержащего трехосный гирометр и трехосный акселерометр. Робот может также включать в себя две двумерные цветные RGB-камеры на лбу робота (верхнюю и нижнюю). Трехмерный датчик может также находиться позади глаз робота. Робот может также необязательно содержать генераторы лазерных линий, например, в голове и в основании, для обеспечения возможности восприятия его относительного положения по отношению к объектам /существам в его среде. Робот может также включать в себя микрофоны для обеспечения возможности восприятия звуков в его среде. Робот настоящего изобретения может также включать в себя ультразвуковые датчики, которые могут быть расположены на передней части и на задней части его основания, для измерения расстояния до объектов/ людей в его среде. Робот может также включать в себя тактильные датчики, на его голове и на его руках, для обеспечения возможности взаимодействия с людьми. Он может также включать в себя демпферы на своем основании для восприятия препятствий, которые он встречает на своем пути. Для передачи его эмоций и установления связи с людьми в его среде, робот настоящего изобретения может также включать в себя светодиоды, например, в его глазах, ушах и на его плечах, и громкоговорители (например, расположенные в его ушах). Робот может устанавливать связь с базовой станцией, с другими подключенными устройствами или с другими роботами, через различные сети (3G, 4G/LTE, Wifi, BLE, ячеистую сеть и т.д.). Робот содержит аккумуляторную батарею или источник энергии. Робот может осуществлять доступ к зарядной станции, соответствующей типу аккумуляторной батареи, которую он включает в себя. Положением/ перемещениями роботов можно управлять посредством их двигателей, с использованием алгоритмов, которые активируют цепи, находящиеся в каждой конечности, и рабочие органы, находящие на конце каждой конечности, с учетом измерений датчиков.
В конкретном варианте осуществления, робот может иметь встроенный планшет, с помощью которого он может передавать сообщения (звуковые сообщения, видео, веб-страницы) в его среду или принимать вводы данных от пользователей через тактильный интерфейс планшета. В другом варианте осуществления, робот может не иметь встроенного или находящегося на нем экрана, но он может иметь видеопроектор, с помощью которого данные или информация могут быть спроецированы на поверхности вблизи робота. Упомянутые поверхности могут быть плоскими (например, пол) или неплоскими (например, деформации проекционных поверхностей могут быть скомпенсированы для получения, по существу, плоской проекции). В обоих вариантах осуществления (с экраном и/или с видеопроектором), варианты осуществления настоящего изобретения остаются допустимыми: заявленная модель взаимодействия дополняется или комплектуется только визуальным средством взаимодействия. В любом случае, независимо от того, будет ли графическое средство неисправно или будет деактивировано преднамеренно, останется разговорный режим взаимодействия.
В одном варианте осуществления, робот не содержит такого средства графического пользовательского интерфейса. Существующие человекоподобные роботы обычно снабжены усовершенствованными речевыми возможностями но, обычно, не снабжены GUI. Все большие группы пользователей, вероятно, не будут использовать графическое средство (например, планшет, смартфон), даже в качестве дополнительного средства, для установления связи с роботом, по желанию и/или по необходимости (молодежь, инвалиды, в практической ситуации и т.д.).
Набор программного обеспечения 110 (неисчерпывающе) содержит программные модули или объекты или части программного кода, взаимодействующие друг с другом и включающие в себя «средства 111 извлечения», «предложения 112 видов деятельности», «назначение 113 приоритетов интеллекта», «менеджер 114 пакетов», «исторические данные 115 пользователя», «фокусируемый автономный вид 116 деятельности» и «фокусируемую диалоговую тему» 117 и «услугу 118 мониторинга технического состояния».
«Услуга 111 Средства Извлечения» обычно распознает или воспринимает что-либо внутри или снаружи робота и обеспечивает краткосрочные данные для памяти робота. Услуга Средства Извлечения принимает входные показания от датчиков робота; эти показания датчиков предварительно обрабатывают для извлечения уместных данных в отношении положения робота, идентификации объектов/ людей в его среде, расстояния до упомянутых объектов/ людей, слов, произнесенных людьми, или их эмоций. Услуги Средств Извлечения, в частности, содержат: распознавание лиц, восприятие людей, зоны контакта, обнаружение приветственных жестов, обнаружение улыбок, обнаружение взглядов, обнаружение эмоций, анализ речи, распознавание речи, локализацию звука, обнаружение перемещения, панорамный компас, позу робота, диагноз технического состояния робота, аккумуляторную батарею, обработку QR-кода, домашнюю автоматику, группы, время и расписание.
«Услуга Исполнительных Механизмов» заставляет робота физически производить или выполнять действия. Средство Отслеживания Перемещений, светодиоды, менеджер Вариантов поведения являются «Услугами Исполнительных Механизмов».
«Информационная Услуга» обеспечивает долгосрочное запоминание данных. Примерами Информационных Услуг являются Услуга 115 Пользовательского Сеанса, которая запоминает пользовательские данные и их историю в отношении того, что они делали с роботом, и Услуга 114 Менеджера Пакетов, которая обеспечивает масштабируемое хранилище процедур, исполняемых роботом, с их высокоуровневым определением, условиями запуска и тегами. «Менеджер Пакетов», конкретно, обеспечивает масштабируемое хранилище Видов Деятельности и Диалогов, а также Декларацию. «Декларация» содержит метаданные, такие как условия запуска, теги и высокоуровневые описания.
«Услуга Интеллекта» (например, услуга Назначение 113 Приоритетов Интеллекта) является услугой, которая будет управляться центральным «Интеллектом» робота, когда она инициирует действие. «Услуги Интеллекта» связывают вместе «услуги 130 Исполнительных Механизмов», «услуги 111 Средств извлечения» и «Информационные Услуги» 115. Базовая Информированность является «Услугой Интеллекта». Она подписывается на «Услуги Средств Извлечения», такие как Восприятие Людей, Обнаружение Перемещения, и Локализация Звука, чтобы указать Услуге Перемещения на то, что следует выполнить перемещение. «Интеллект» 113 конфигурирует вариант поведения Базовой Информированности на основе ситуации. В другие моменты времени, Базовая Информированность либо действует сама по себе, либо конфигурируется Выполняемым Видом Деятельности.
«Автономное Функционирование» является Услугой Интеллекта. Она исполняет виды деятельности вариантов поведения. На основе контекста ситуации, Интеллект может указать Автономному Функционированию, на каком виде деятельности следует сфокусироваться («Фокусируемый Автономный Вид 116 Деятельности»). Метаданные в декларациях связывают эту информацию в интеллекте. Любой вид деятельности может иметь доступ к одному или нескольким API Операционной Системы. Виды Деятельности могут также прямо указать Автономному Функционированию, на каком виде деятельности следует сфокусироваться, или указать Услуге Диалога, на какой теме следует сфокусироваться.
Услуга «Диалог» может быть сконфигурирована в виде Услуги Интеллекта. Она подписывается на средство извлечения распознавания речи и может использовать «Услугу Исполнительного Механизма Динамической Речи» для говорения. На основе контекста ситуации, Интеллект может указать Диалогу, на каких темах следует сфокусироваться («Диалоговая Тема»). Услуга «Диалог» также имеет свои алгоритмы для управления разговором и обычно действует сам по себе. Одним компонентом услуги Диалога может быть услуга 117 «Фокусируемая Диалоговая Тема». Диалоговые Темы могут программно указать Интеллекту на то, что следует переключить фокус (или выполнить или запустить) на другой Вид Деятельности или Диалоговую Тему, в любое время. Один пример возможного способа для определения Диалоговой Темы может содержать: в тот момент, когда условия запуска диалоговой темы или вида деятельности становятся истинными или ложными, список всех возможных на данный момент Видов Деятельности или Диалоговых Тем отправляют к Интеллекту; список фильтруют согласно назначению приоритетов видов деятельности; порядок списка рандомизируют; список сортируют (или оценивают) для отдания предпочтения Видам Деятельности или Диалоговым Темам, которые являются «уникальными» и запускались менее часто; выполняют специальную проверку, чтобы убедиться, что верхний Вид деятельности или Диалоговая Тема в этом списке не является таким же видом деятельности, как предыдущий вид деятельности, который выполнялся. Список может быть снова отсортирован и отфильтрован согласно предпочтениям пользователя.
Робот может реализовать услугу 118 «мониторинг технического состояния». Такая услуга может действовать в качестве демона или «сторожевого устройства» для проверки или контроля или регулирования разных приоритетов робота. Такая услуга может контролировать (непрерывно, прерывисто или периодически) состояние внутренних компонентов робота и измерять или ожидать или прогнозировать или корректировать неисправности аппаратных средств. В одном развитии, контролируют множество (например, установленное базовое количество) роботов. Встроенная услуга может непрерывно обнаруживать ситуации неисправностей и синхронизировать их с услугой «облака» (например, один раз каждую минуту).
Аппаратные компоненты 120 содержат обрабатывающее средство 121, запоминающее средство 122, средство 123 ввода/ вывода данных (I/O), массовое запоминающее средство 124 и средство 125 доступа к сети, причем упомянутые средства взаимодействуют друг с другом (кеширование, свопинг, распределенные вычисления, балансировка загрузки, и т.д.). Обрабатывающее средство 121 может быть CPU (многоядерным или многократноядерным) или FPGA. Запоминающее средство 122 может содержать одно или несколько из флэш-памяти или памяти с произвольным доступом. Средство 123 I/O может содержать одно или несколько из экрана (например, сенсорного экрана), источника света или светодиода, тактильной обратной связи, виртуальной клавиатуры, мыши, шарового манипулятора, джойстика, или проектора (включая лазерный проектор). Запоминающее средство 124 может содержать одно или несколько из накопителя на жестких дисках или SSD. Средство доступа к сети может обеспечить доступ к одной или нескольким сетям, таким 3G, 4G/LTE, Wifi, BLE или ячеистая сеть. Сетевой трафик может быть зашифрован (например, с использованием туннелей, SSL, и т.д.).
В одном варианте осуществления, вычислительные ресурсы (средства вычислений, память, средства I/O, запоминающие средства и подключаемость) могут иметь удаленный доступ, например, в качестве дополнения к локальным ресурсам (доступным в самом роботе). Например, дополнительные CPU-блоки могут быть доступными через Облако для вычислительных задач распознавания речи. Вычислительные ресурсы могут также использоваться совместно. Конкретно, множество роботов может совместно использовать ресурсы. Подключенные устройства вблизи робота также могут совместно использовать ресурсы до некоторой степени, например, через защищенные протоколы. Средства отображения также могут совместно использоваться. Например, телевизионный приемник может быть использован роботом при прохождении мимо него в качестве дополнительного дисплея.
Фиг. 2 детализирует некоторые аспекты одного варианта осуществления данного способа. Робот 130 взаимодействует (например, с помощью диалогов, жестов, команд) с человеком-пользователем 150. Частями этих взаимодействий являются диалоги 140, содержащие высказывания (ответы, вопросы, приказы, утверждения, комментарии, и т.д.). Робот обычно использует свой принимаемый по умолчанию стандартный вариант речи (форму) и выдает стандартные и предварительно заданные варианты диалогового контента (содержание). Например, робот произносит диалоговое высказывание 141. В зависимости от некоторых параметров (запросов пользователей или параметров среды), робот может переключиться на другой вариант речи и/или другой вариант диалогового контента, например, 142. Робот может также переключиться обратно на начальный или принимаемый по умолчанию вариант речи. Более конкретно, начиная с принимаемого по умолчанию варианта речи и варианта 200 диалогового контента (или с начального/ модифицированного варианта речи и/или модифицированного варианта диалогового контента), правила 220 выполнения диалогов определяют, должен ли диалог быть модифицирован и в какой степени.
Правила 220 выполнения диалогов, например, находятся под влиянием или определяются запросом 221 пользователя и/или воспринимаемой средой 222 (например, могут быть определены посредством датчиков робота, отфильтрованы посредством средств извлечения или согласно описанным вариантам осуществления в отношении логики, реализуемой в Интеллекте робота). Например, параметры среды содержат: возрастную группу (ребенок, взрослый) одного или нескольких пользователей, находящихся поблизости, пол одного или нескольких пользователей, находящихся поблизости, общее количество пользователей, находящихся поблизости, текущее местоположение, текущую дату и время, текущее настроение одного или нескольких пользователей (например, улыбку, смех, плач, и т.д.). Запрос 221 пользователя соответствует режиму «по требованию» активации нового диалогового режима (например, пользователь может сказать: «Теперь имитировать Дарта Вейдера»). Определение через воспринимаемую среду подчеркивает режим «автоматического запуска» активации нового диалогового режима. Робот заранее может активировать или деактивировать один или несколько параметров диалоговых режимов (подавить или преувеличить вариант речи, видоизменить варианты диалогового контента, и т.д.). Эти два режима активации (или деактивации) могут быть объединены, т.е., запуск нового диалогового режима может быть определен частично запросами пользователя и частично средой. Например, после запроса пользователя, параметры среды могут подтвердить или подавить изменение в диалоговом режиме. Альтернативно, автоматический переключатель может потребовать подтверждение или авторизацию пользователя для активации. Диалоговые режимы обычно могут быть активированы или деактивированы в любое время. В одном варианте осуществления, в надежде на веселый разговор, робот может переключаться между множеством диалоговых режимов туда и обратно. Необязательно, может быть реализован предел количества изменений (для предотвращения пресыщения пользователя или во избежание создания впечатления о том, что робот безумен).
Правила 220 выполнения диалогов действуют на содержание и/или форму, которые могут быть обработаны независимо. Правила могут определить загрузку новых вариантов 210 диалогового контента (например, ссылок на кинофильмы, посредством произнесения общеизвестных высказываний), а также управление изменениями 230 воспроизведения звука. Даже если никакой вариант диалогового контента не выбран 211, может быть применен 230 новый вариант речи. Новый или модифицированный вариант диалогового контента также может быть применен без нового варианта 231 речи. Определенные параметры применяют к диалоговому режиму (или загружают новый диалоговый режим и заменяют текущий диалоговый режим, используемый роботом). Например, применяют диалоговый режим, именуемый "Ch'tis", и произносят высказывание 142. Было отмечено, что полностью или частично, параметры вариантов диалогового контента и/или вариантов речи могут быть извлечены из интернета или Облака 223.
Теперь будут описаны примеры диалоговых режимов (конкретно, варианты диалогового контента и варианты речи).
В одном варианте осуществления, «утилиты» диалогового режима (например, модификации вариантов диалогового контента) обеспечивают возможность использования одного или нескольких словарей (или справочника) для того, чтобы робот мог произнести данные высказывания по-разному. Например, могут быть использованы синонимы. Предпочтительно, такой вариант осуществления предотвращает повторение роботом слов. Лингвисты (редактирующие предварительно подготовленные диалоговые высказывания) могут записать много вариантов диалогового контента или тем, чтобы робот мог разговаривать о многих вещах. Использование синонимов увеличивает разнообразие выражений робота, что уподобляет его людям, которые обычно используют разные слова. Диалоговые режимы могут воспроизводить диалоговые высказывания по-разному. Например, вместо повторения: «Сегодня прекрасная погода», робот сможет сказать: «Сегодня чудесная погода».
В одном варианте осуществления, «локальные» видоизменения обеспечивают возможность индивидуализации или персонализации вариантов диалогового контента и/или вариантов речи в зависимости от множественных параметров, включая геолокацию. Например, некоторые лингвистические признаки некоторых географических территорий - например, где робот будет введен в коммерческий оборот - могут быть обработаны посредством применения соответствующего варианта речи. В таком варианте осуществления, произношение некоторых слов может быть видоизменено, например, на основе геолокации. Условие запуска варианта речи, например, может содержать параметры геолокации. На практике, робот, вводимый в коммерческий оборот на юге Франции, может автоматически загрузить Южный Французский акцент, и, наоборот, робот, вводимый в коммерческий оборот на севере Франции, может автоматически загрузить Северный акцент. Могут также применяться идиоматические выражения.
В одном варианте осуществления, могут быть реализованы или выполнены «обучающие» диалоговые режимы. В общем, поскольку дополнение содержательного контента может быть частью применения диалогового режима, некоторая обучающая цель может быть предусмотрена. В таком режиме, могут быть реализованы обучающие диалоговые режимы (например, с необходимыми условиями, определением целей, обучающими вариантами диалогового контента как таковыми, этапами верификации усвоения). Пользователи могут изучать иностранные языки с роботом-товарищем. Они также могут изучать аспекты своего родного языка. Например, молодые пользователи могут обучаться разным стилям языка (например, стилю французского языка "soutenu", стилю французского языка "Verlan", стилю французского языка "argot", и т.д.). Диалоговые режимы также могут реализовать конкретные профессиональные языки (медицинский, юридический, и т.д.)
В одном варианте осуществления, могут быть реализованы «развлекательные» диалоговые режимы. Робот, например, может пародировать или упоминать недавно выпущенные кинофильмы. Например, вариантом речи может быть вариант воспроизведения «Дарт Вейдер» или «Магистр Йода» (персонаж Йода часто переставляет сказуемые и подлежащие, Дарт Вейдер может добавлять: «Я твой отец», в конце высказывания и дышать с шумом).
В одном варианте осуществления, выпуск кинофильма связан с загружаемой программой, которая, при загрузке в робота, обеспечивает реализацию упомянутым роботом конкретного диалогового режима (в отношении варианта диалогового контента и/или экспрессивности варианта речи). Например, после выпуска кинофильма, такого как "Bienvenue chez les Ch'tis", соответствующий диалоговый режим может быть доступен в виде «положительных персонажей» или производного продукта. В одном варианте осуществления, QR-код, доступный на задней части DVD-конверта или на билете в кино, может быть считан посредством средства приобретения изображения, и соответствующая им программа программного обеспечения, реализующая соответствующий диалоговый режим, может быть загружена и затем установлена. Необязательно, длительность действия такой программы программного обеспечения может быть ограничена во времени (например, двумя неделями). В другом варианте осуществления, известные звезды или знаменитости или герои могут иметь своих цифровых двойников для диалогового режима. Например, поклонник Клода Франсуа (известный певец Франции) может реализовать в роботе соответствующий вариант речи (например, имитации речи, интонации) и/или варианты диалогового контента (например, точное воспроизведение или реконструкцию реплик, цитат, бесед, и т.д.). В качестве многорежимного объекта, дополнительно к описанным диалоговым режимам (и необязательно), робот, например, может выступать в качестве хореографа или может танцевать как Клод Франсуа или отвечать исключительно с использованием реальных отрывков записанных в прошлом бесед с певцом (в соответствии с аспектами авторских прав, в случае необходимости).
В одном варианте осуществления, робот может обеспечить долгосрочные уподобления на основании взаимодействий с пользователем. Например, персонализированная и постоянная диалоговая модель может быть прогрессивно связана с данным роботом. Выбор и постоянство долгосрочных особенностей могут помочь определить уникальность «персонажа», связанного с роботом. Например, некоторое выражение, такое как "vin de diouss" может быть достаточно высоко оцениваемым некоторыми пользователями, так что конкретный аспект варианта речи будет реализован постоянно. В процессе выбора вариантов речи, «личность» робота, таким образом, может быть консолидирована, при смешении разных особенностей разных диалоговых режимов, и, конкретно, вариантов речи.
Речевые взаимодействия могут предполагать эффект обучения, как для робота, так и для пользователя. Такое взаимодействие может называться «социальным взаимодействием», даже если одним из участников является робот. Повторяющиеся и итерационные речевые взаимодействия, перемежаемые поощрениями (подтверждениями), например, могут облегчить обучающие виды деятельности. Диалоговые взаимодействия обычно уменьшают разделение между фазами «обучения» и «использования». Робот-товарищ может пытаться пародировать своих «преподавателей», например, посредством повторного использования произносимых выражений людей и/или посредством повторного использования произносимых выражений с похожей скоростью речи. Большее количество взаимодействий с роботом обычно означает большее количество релевантных взаимодействий, поскольку базы знаний обогащаются и перекрестно проверяются.
Теперь будут описаны примеры запуска диалоговых режимов (например, активация или деактивация вариантов диалогового контента и/или вариантов речи, например, с использованием правил выполнения).
Диалоговый режим (например, вариант речи) может быть связан с одним или несколькими правилами выполнения. Диалоговые режимы могут быть запущены (активированы или деактивированы) согласно таким правилам выполнения. Ниже описаны разные варианты осуществления. Существует несколько способов для инициирования запуска или выполнения диалогового режима, содержащего вариант диалогового контента и вариант диалоговой речи (“voice skin”), во время диалога, содержащего высказывания, между человеком-пользователем и роботом. Эти разные способы (конкретно, описанные ниже), для инициирования запуска или выполнения одного или нескольких диалоговых режимов могут быть независимыми и могут быть дополнительно объединены друг с другом.
В одном варианте осуществления, запуск или выполнение одного или нескольких приложений программного обеспечения инициируют во время диалога с пользователем (взаимодействия с пользователем). Звуковой сигнал захватывают, необязательно фильтруют и усиливают, выполняют операцию преобразования речи в текст (локально в роботе и/или удаленно в облаке), полученный текст анализируют и выполняют одно или несколько сравнений с упомянутыми образцами. После одного или нескольких установлений соответствия, необязательно, с использованием порогов, один или несколько диалоговых режимов выбирают среди диалоговых режимов, установленных в роботе. В результате, выполняют один или несколько диалоговых режимов.
В одном варианте осуществления, запуск диалогового режима является полностью автоматическим, т.е., без разрешения или подтверждения пользователя. В одном развитии, пользователь или суперпользователь (например, родитель) может прервать или приостановить или остановить или завершить выполнение диалогового режима. В другом варианте осуществления, запуск диалогового режима требует явного подтверждения пользователя. Робот может декларировать свое намерение запустить некоторый диалоговый режим, но будет ожидать подтверждения перед продолжением. Например, робот может декларировать: «Я хочу говорить как Дарт Вейдер», а пользователь может, однако, ответить: «Не сейчас».
В одном варианте осуществления, диалоговые режимы могут быть выполнены в зависимости от условий или параметров запуска. Эти условия или параметры могут быть фактами или правилами или и теми и другими (правилами в отношении фактов). Эти факты, например, содержат тип или категорию пользователя, текущий вариант контента или ситуацию или среду, характеризуемую одним или несколькими значениями среды (например, текущая локальная погода, дата и время, обнаруженные эмоции, количество пользователей, и т.д.). Правила выполнения варьируются от простых до сложных правил. Правила выполнения могут быть условными. Например, в одном варианте осуществления, множество правил должно быть одновременно удовлетворено для авторизации или разрешения выполнения диалогового режима. В другом варианте осуществления, множество правил должно быть последовательно удовлетворено (например, в некотором порядке и/или с временными пределами или порогами). Некоторые правила выполнения могут быть предварительно заданными. Некоторые другие правила выполнения могут быть динамически определены (например, некоторые правила могут быть извлечены из интернета).
В одном варианте осуществления, правило выполнения может быть простым правилом. Например, правило выполнения может содержать (например, кодировать) возрастной предел. В другом варианте осуществления, множество правил выполнения может быть использовано или применено совокупно. Например, конкретный вариант речи может быть авторизован перед пользователями старше 12 лет и/или согласно некоторым ситуациям (время дня, измеренные эмоции в аудитории, и т.д.). В одном варианте осуществления, применение варианта диалоговой речи (голоса) или варианта диалогового контента запускается роботом после обнаружения предварительно заданного события, причем упомянутое событие определяет конкретную комбинацию временных критериев (календарь, время дня, и т.д.) и пространственных критериев (количество пользователей, обнаруженных поблизости, соответствующие возрасты упомянутых пользователей, эмоциональные отношения, воспринимаемые от упомянутых пользователей, например, присутствие или отсутствие улыбок).
В одном варианте осуществления, некоторые правила выполнения могут быть конфигурируемыми пользователем (например, средствами родительского контроля). Некоторые правила выполнения могут быть предварительно заданными, в то время как другие правила выполнения могут быть извлекаемыми динамически, например, из интернета и/или из других роботов. Диалоговые режимы могут быть активированы или деактивированы во время одного и того же диалога: эти активации или деактивации могут быть динамическими, например, могут по-разному зависеть от воспринимаемой среды.
В одном варианте осуществления, диалоговый режим (т.е., вариант диалогового контента и/или вариант речи, независимо) может быть активирован или остановлен в зависимости от нескольких параметров, содержащих использование «тегов» и/или использование «условий» и/или использование «предварительных условий».
Теги или метки могут быть связаны с одним или несколькими выражениями, которые могут быть произнесены роботом. Эти теги могут быть активированы или деактивированы динамически и могут определять, могут ли быть запомнены соответствующие выражения или нет. Например, после того, как робот спрашивает: «Хочешь поговорить о приготовлении пищи?», если пользователь отвечает: «Нет, меня не интересует приготовление пищи», (и т.п.), то тег «приготовление пищи» деактивируется. Робот обновляет список диалоговых тем, связанных с идентифицированным пользователем. Роботы будут в будущем избегать упомянутой диалоговой темы.
«Условия» и «пересекающиеся условия» обеспечивают возможность модификации того, что робот собирается сказать, в виде функции предварительно заданных переменных (предпочтений пользователя, например). Например, на вопрос, заданный роботом: «Сколько тебе лет», пользователь может ответить «Мне 12 лет». В этом случае, робот запоминает значение 12 в качестве значения возраста идентифицируемого пользователя. Позже, робот может спросить: «Что ты делаешь вечером?». Если пользователь ответит: «Ничего», то робот запомнит этот ответ в качестве переменной, связанной с «вечерним видом деятельности». На основании возрастной группы и наличия занятости вечером, рассуждение робота может затем вечером сделать вывод или предложить: «Хочешь поиграть со мной?».
В одном варианте осуществления, запуск (т.е., активация или деактивация диалогового режима или варианта речи или варианта диалогового контента) может управляться контекстом (например, средой, данными, временем, местоположением, и т.д.). В одном варианте осуществления, робот может проконтролировать и записать одно или несколько выражений пользователя. После обнаружения слова, такого как «атмосфера», робот, затем, может сказать: «atmosphere, atmosphere, est ce j'ai une gueule d'atmosphere?». Это является примером культурной отсылки. Кроме того, диалоги могут быть также запущены посредством гораздо более сложных фактов и правил, например, посредством так называемых обнаружений «событий». Например, некоторые диалоговые режимы или варианты воспроизведения диалогов могут быть не разрешены в присутствии некоторых возрастных групп. На практике, робот, например, может оценить, что по меньшей мере одному пользователю меньше 12 лет, и обнаруживать слово «Картофель фри» в разговоре и, затем, загрузить конкретный предварительно заданный вариант воспроизведения ("Ch'tis"). Другим примером события является ситуация, когда пользователь касается головы робота. В этом случае, конкретный вариант воспроизведения может быть загружен, активирован и выполнен. События могут содержать параметры, такие как: пространственное местоположение, жест или комбинация жестов, контент диалога (ключевые слова или ключевые выражения), оценка возрастных групп и/или пола, предпочтения пользователя.
В одном варианте осуществления, во время диалога выполняется одно или несколько приложений, запущенных выполнением (или верификацией или удовлетворением) одного или нескольких правил выполнения. Диалог между человеком и машиной контролируется, и «образцы» (например) непрерывно извлекаются из диалогового потока (режим «совместного диалога»). В одном варианте осуществления, речевой поток принимают и непрерывно анализируют. Извлечение выходит за пределы просто извлечения речевых команд (например, ключевых выражений) в речевом потоке с меткой или без нее («Хорошо, Glass, возьми картину»). Конкретно, слова или выражения пользователя извлекают и сравнивают или устанавливают соответствие с предварительно заданными условиями, тегами, метками или пересекающимися условиями.
В другом варианте осуществления, предварительно заданы одно или несколько правил выполнения. Приложение программного обеспечения обеспечено редактором или издателем с файлом, содержащим список правил выполнения для обеспечения возможности или разрешения или авторизации выполнения упомянутых диалоговых режимов. Проверяют правила выполнения: если они удовлетворены или разрешены или верифицированы, то может быть выбран один или несколько диалоговых режимов. Некоторые правила могут иметь минимальные критерии для выполнения. Некоторые другие правила могут определить предпочтительные условия запуска или выполнения. Например, минимальным правилом выполнения может быть: «Если пользователю меньше 12 лет, и сейчас еще нет 10 часов вечера, то авторизуется вариант речи Дарта Вейдера», предпочтительным правилом может быть: «Если три пользователя находятся в пределах 5 м, и по меньшей мере два пользователя младше 12 лет, и по меньшей мере один пользователь улыбается, и если нет других противоположных указаний, то тогда следует пошутить голосом Дарта Вейдера.
Теперь будут описаны различные варианты осуществления.
Теперь будут описаны петли обратного действия и обратная связь по релевантности. В одном варианте осуществления, общий успех или неудача данного диалогового режима (например, варианта речи), с точки зрения человека-пользователя, могут быть приняты и/или оценены количественно. В одном развитии, с использованием мелкоструктурной структурируемости, каждая речевая инициатива робота может быть либо подтверждена, либо не подтверждена пользователем (например, посредством обнаружения явного одобрения или даже неявного одобрения, исходящего из сложного человеческого поведения, объединяющего жестовые и речевые команды). Кроме того, может быть реализована совместная модель: достоверность или недостоверность данного выражения может быть оценена статистически среди групп пользователей/ роботов. Например, если выражение "cha va biloute" получает положительную обратную связь (отзыв) у доли установленного базового параметра, равной или превосходящей 75%, то упомянутое выражение может быть признано достоверным в глобальном масштабе. Напротив, если выражение "à l'arvoïure" получает слишком мало положительной обратной связи (или получает негативную обратную связь), то упомянутое выражение может быть навсегда удалено из конкретного диалогового режима или модели.
В одном развитии, ответы, обеспечиваемые людьми для диалогов с вариантами диалоговой речи, могут быть записаны и дополнительно эффективно использованы. В одном варианте осуществления, ответы используют для оценки качества вмешательств робота. В другом варианте осуществления, содержание их ответов может быть, в свою очередь, использовано для дополнительного обогащения моделей разговора. Например, если ответ наблюдается рекуррентно, то тогда ответ потом повторно используется в диалоговом режиме (т.е., в вариантах диалогового контента).
В отношении бизнес-аспектов, включающих в себя технический материал, в одном варианте осуществления, диалоговые режимы (например, варианты речи) распространяют через электронный рынок. Некоторые варианты воспроизведения могут быть загружены бесплатно; некоторые другие варианты воспроизведения могут потребовать оплаты. Некоторые варианты воспроизведения могут иметь ограничение по времени, территории или могут иметь другие аппаратные требования.
Даже если робот-товарищ, теоретически, может записать каждое слово, которое произносит человек, аспекты неприкосновенности частной жизни запрещают такие записи. Посредством использования технологий машинного обучения, высокоуровневые и неинтрузивные признаки могут быть, тем не менее, получены роботом. Например, с использованием технологий машинного обучения, могут быть извлечены рекуррентные образцы (тип словарного запаса, предпочтительные выражения, и т.д.). Подобным образом, ограниченные извлечения из кинофильмов могут быть обеспечены на основании анализа субтитров (на примере Магистра Йоды, варианты диалогового контента могут быть определены на основании такого анализа). В отношении аспектов тона и частоты, управляемое обучение может обеспечить роботу возможность имитации некоторых назначенных людей. Например, робот может начать разговор, и его могут затем попросить модифицировать некоторые параметры («говорить немного более четко»). В одном варианте осуществления, могут быть выполнены автоматические сравнения реализуемого варианта речи и реальных звуковых отрывков, что обеспечивает, таким образом, возможность улучшения петель обратной связи.
Теперь будет описана авторизация вариантов диалогового контента. Разные объекты могут редактировать варианты диалогового контента. В одном варианте осуществления, оператор или роботизированная платформа может записать диалоговые высказывания (например, лингвисты могут действительно записать диалоговые высказывания). В одном варианте осуществления, варианты диалогового контента записывают и вводят в коммерческий оборот сторонние компании (например, разработчики программного обеспечения). В одном варианте осуществления, диалоговые режимы записывают пользователи или владельцы роботов. Например, средства программного обеспечения («DJ-варианты воспроизведения») или веб-платформы могут облегчить создание или модификацию вариантов речи. Пользователи могут представлять новые варианты речи, редактировать их в режиме онлайн, голосовать за популярные варианты речи или оценивать их. Редакция может содержать смешение предварительно заданных вариантов речи, и/или снабжение пользователя некоторыми средствами управления созданием для точной настройки вариантов речи, и/или загрузку и совместное использование звуков или записанных высказываний, или их комбинаций. Доступные варианты воспроизведения могут поступать с лицензией или без нее, бесплатно или после оплаты. Варианты речи могут быть выбраны пользователем робота, который, например, может прослушать разные применения разных вариантов речи и предпочесть или выбрать один или несколько предпочтительных вариантов речи. В другом варианте осуществления, диалоги могут быть совместно записаны разными объектами. В одном варианте осуществления, диалоги консолидируют на основании установленной базы данных роботов и на основании ответов именно тех пользователей, которые являются владельцами разных роботов. Упомянутая консолидация может быть дополнительной к начальным диалогам. В другом варианте осуществления, также в качестве дополнения или альтернативы, варианты диалогового контента записывают посредством извлечений, выполняемых на основании вариантов контента интернета (например, управляемые или неуправляемые способы могут обеспечить возможность идентификации, извлечения и использования вопросов и ответов). Предпочтительно, такие варианты осуществления обеспечивают быстрые улучшения вариантов диалогового контента, посредством приема распределенной обратной связи. Упомянутые улучшения могут быть быстро распространены по установленной базе данных. Например, посредством использования машинного обучения с замкнутым контуром, популярные варианты речи могут быть распространены по всему миру.
Если множественные объекты могут способствовать определению диалоговых режимов (т.е., посредством обеспечения вариантов диалогового контента и/или вариантов речи и/или связанных правил выполнения), то конечной реализацией может управлять поставщик робота. Дополнительные уровни управления или регулирования могут модулировать или фильтровать или ослаблять или усиливать или увеличивать или поощрять или уменьшить или подавлять или ограничивать или избегать или запрещать использование диалоговых режимов. Конкретно, как описано, использование диалоговых режимов может регулироваться правилами выполнения: изготовитель или поставщик робота может управлять этими правилами, полностью или частично.
В одном варианте осуществления, поставщик робота может управлять конечным устройством воспроизведения звука, т.е., последней точкой перед фигуральным восстановлением. Другими словами, планируемое звуковое выражение робота, основанное на применении выбранного диалогового режима или варианта диалогового контента или варианта воспроизведения для предварительно подготовленного высказывания диалога может быть отфильтровано перед эффективным восстановлением звука.
Для обеспечения уверенности или обоснованной уверенности в том, что робот не произнесет никаких плохих слов, могут быть реализованы белые списки авторизованных слов и черные списки запрещенных слов, а также серые списки (слов или выражений, которые могут быть авторизованы или нет в зависимости от текущего контекста). В этом случае, результат применения варианта речи к предварительно подготовленному высказыванию варианта диалогового контента можно сравнить с такими списками. Сложные логические правила, помимо использования списков, также могут быть использованы. В случае успеха, при авторизации или разрешении, высказывание произносится (и/или модифицируется соответствующим образом).
Другой способ регулирования применения одного или нескольких вариантов диалогового контента и/или вариантов речи к конечному диалоговому выражению робота может содержать использование способов защищенной загрузки. Например, каждый пакет программного обеспечения, кодирующий конкретный диалоговый режим, может быть связан со значением хэш-функции (например, программы в двоичной форме). Соответствующее присутствие упомянутой программы, удостоверенной посредством верификации значения хэш-функции пакетов программного обеспечения, установленных в роботе, может условно авторизовать загрузку робота (или некоторые ограничения в функциональностях) после успешной верификации.
В качестве дополнительного регулирования выполнения диалоговых режимов (в общем, программных приложений, установленных в роботе), услуга мониторинга технического состояния робота может настроить приоритеты выполнения. Конкретно, выполнение программных приложений может учитывать такую услугу «мониторинга технического состояния». Другими словами, схемы более высокого приоритета могут дополнительно регулировать выполнение программных приложений, включающих в себя диалоговые режимы. В одном варианте осуществления, робот не находится во взаимодействии с пользователем (т.е., ни с кем не взаимодействует). В этом случае, робот выполняет или может выполнить автономные задачи. В другом варианте осуществления, робот находится в опасности (например, «защитный режим», уровень заряда аккумуляторной батареи является низким или критическим, наличие препятствия или риск падения, и т.д.). В этом случае, приоритетом робота является обработка и решение своих собственных проблем (например, выполнение своих собственных задач). Например, если уровень заряда аккумуляторной батареи является критическим, роботы могут прервать диалог с пользователем и постараться достичь базы источника энергии. Диалоговый режим может быть активирован, если пользователь обнаружен поблизости и/или если робот не находится в критической ситуации (в которой роботы не могли бы выполнить свои основные функции). С другой стороны, модуль диалогового режима может быть деактивирован, если никакой пользователь не обнаружен поблизости и/или робот находится в критической ситуации.
Раскрытые способы могут принимать форму полностью аппаратного варианта осуществления (например, FPGA), полностью программного варианта осуществления или варианта осуществления, содержащего как аппаратные, так и программные элементы. Программные варианты осуществления включают в себя, но не ограничены этим, аппаратно-программное обеспечение, резидентное программное обеспечение, микрокод, и т.д. Настоящее изобретение может принимать форму компьютерного программного продукта, доступного из используемой компьютером или машиночитаемой среды, обеспечивающей программный код для использования посредством или в связи с компьютером или любой системой исполнения инструкций. Используемым компьютером или машиночитаемым может быть любой аппарат, который может содержать, запоминать, передавать, распространять, или транспортировать программу для использования посредством или в связи с системой исполнения инструкций, аппаратом, или устройством. Средой может быть электронная, магнитная, оптическая, электромагнитная, инфракрасная, или полупроводниковая система (или аппарат или устройство) или среда распространения.
Изобретение относится к области обработки синтеза речи и интерактивных диалогов. Техническим результатом является обеспечение возможности регулировки формы и/или содержания диалогового контента, произносимого человекоподобным роботом. Раскрыт реализуемый компьютером способ обработки звукового диалога между роботом и человеком-пользователем, причем этот способ содержит: во время упомянутого звукового диалога прием звуковых данных и преобразование упомянутых звуковых данных в текстовые данные; в ответ на верификацию одного или нескольких правил выполнения диалогового режима для упомянутых текстовых данных выбор модифицированного диалогового режима; причем диалоговый режим содержит один или несколько вариантов диалогового контента и один или несколько вариантов диалоговой речи; причем вариант диалогового контента содержит набор предварительно заданных высказываний, причем упомянутый набор содержит вопросительные высказывания и ответные высказывания; и причем вариант диалоговой речи содержит параметры воспроизведения речи, содержащие частоту, тон, скорость и высоту звука; причем упомянутые один или несколько вариантов диалогового контента и/или вариантов речи записывают или редактируют в режиме онлайн с использованием веб-платформы; при этом один или несколько предварительно заданных вариантов диалогового контента и/или вариантов речи модифицируются множеством сторон; при этом один или несколько вариантов диалогового контента или их выбор модерируют применением одного или нескольких фильтров, причем упомянутые фильтры содержат черные списки одного или нескольких слов, белые списки одного или нескольких слов и/или правила выполнения диалогового режима; при этом регулирование использования упомянутых одного или нескольких вариантов диалогового контента и/или вариантов речи для конечного диалога, выражаемого роботом, содержит использование способов защищенной загрузки. 3 н. и 16 з.п. ф-лы, 2 ил.