Код документа: RU2671990C1
ОБЛАСТЬ ТЕХНИКИ
[1] Данное техническое решение, в общем, относится к области вычислительной техники, а в частности к системам и способам отображения лица объекта на объемный трехмерный дисплей. Изобретение может использоваться в интерфейсах взаимодействия, роботах, игрушках.
УРОВЕНЬ ТЕХНИКИ
[2] В последние несколько лет развитие мощных вычислительных и мобильных устройств и их распространение во всем мире вызвали глобальные изменения, в которых люди уходят от использования при общении настольных компьютеров к использованию мобильных устройств, ноутбуков и других небольших портативных компьютеров.
[3] Одной из проблем в роботах или интерфейсах взаимодействия с пользователем является проблема отсутствия невербальной коммуникации. Невербальная коммуникация - это общение, обмен информацией без помощи слов. Это жесты, мимика, различные сигнальные и знаковые системы. Из всех невербальных средств коммуникации наибольшую роль в нашем общении, конечно, играют первичные, естественные невербальные языки - жесты, мимика. Или, как их еще называют - язык тела. В роботах такая проблема является критической, так как реализовывать мимику в физическом плане у робота или интерфейса взаимодействия очень дорого, либо технологически не возможно. На данный момент в роботах используются плоские либо несколько изогнутые дисплеи (Фиг. 1) с минимальным набором мимики, заключающейся только в отображении глаз и улыбки/грусти робота.
[4] Хотя распространенные в уровне техники технические решения, например плоские дисплеи, обеспечивают возможность общения людей и роботов или интерфейсов взаимодействия, людям сложно общаться с роботом и воспринимать его как настоящего собеседника. Более того, данная проблема логически приводит к тому, что из-за нее человек тривиально общается с роботом или интерфейсом взаимодействия, что в свою очередь вызывает плохую или медленную обучаемость искусственных нейронных сетей робота из-за «синтетического» общения человека с роботом.
[5] Из уровня техники известен патент № US 7113848 В2 «Human emulation robot system», патентообладатель: Hanson David F, дата публикации: 26.09.2006. Данная робототехническая система содержит гибкую искусственную кожу, способную механически изгибаться под контролем вычислительной системы, в которой искусственная кожа содержит дискретные микроскопические секции вспененных и не вспененных эластомеров. Также система содержит первый набор программных инструкций, предназначенных для приема и обработки входных изображений, чтобы определить, присутствует ли на нем хотя бы один человек. Дополнительно система содержит второй набор программных команд, предназначенных для определения ответа на определенное вероятное присутствие человека, посредством чего вычислительная система должна выводить сигналы, соответствующие ответу, так что, по меньшей мере, в некоторых случаях выходные сигналы вызывают контролируемое сгибание искусственной кожи.
[6] Однако данное техническое решение является сложно реализуемым в силу отсутствия достаточных знаний в уровне техники о механической работе мимики, а также необходимости разработки нового набора программных инструкций для отображения нового набора мимики другого человека.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[7] Данное техническое решение направлено на устранение недостатков, присущих существующим решениям, известным из уровня техники. [8] Технической проблемой (или технической задачей) в данном техническом решении является корректное отображение трехмерного лица объекта на трехмерное устройство отображения.
[9] Техническим результатом, проявляющимся при решении вышеуказанной технической проблемы, является повышение точности отображения трехмерного лица объекта на трехмерное устройство отображения.
[10] Дополнительным техническим результатом, проявляющимся при решении вышеуказанной проблемы, является повышение восприятия другими пользователями при общении с пользователем с трехмерным устройством отображения или роботом, за счет управления мимикой на устройстве отображения в режиме реального времени.
[11] Указанный технический результат достигается благодаря осуществлению способа отображения трехмерного лица объекта, в котором формируют по меньшей мере одну трехмерную модель лица объекта по меньшей мере по двум его фотографиям; формируют по меньшей мере одну мимическую модель лица объекта посредством использования искусственной нейронной сети; отображают трехмерную модель лица объекта на по меньшей мере одно трехмерное устройство отображения, причем осуществляя преобразование лица объекта при отображении; осуществляют управление мимикой лица на трехмерном устройстве отображения в режиме реального времени на основе мимической модели объекта.
[12] В некоторых вариантах реализации технического решения формируют трехмерную модель лица объекта посредством получения и обработки стереопары фотографий лица объекта.
[13] В некоторых вариантах реализации технического решения формируют трехмерную модель лица объекта с использованием триангуляции.
[14] В некоторых вариантах реализации технического решения при формировании мимической модели лица объекта используют сверточную и/или рекуррентную нейронную сеть.
[15] В некоторых вариантах реализации технического решения при отображении трехмерной модели лица объекта на устройство отображения используют аффинное преобразование трехмерной модели лица.
[16] В некоторых вариантах реализации технического решения при отображении трехмерной модели лица объекта на устройство отображения, по его контрольным точкам определяют наклон и угол поворота лица, отслеживая любые движения и корректируя трехмерную модель.
[17] В некоторых вариантах реализации технического решения при отображении трехмерной модели лица объекта на устройство отображения, осуществляют ее гамма-коррекцию и/или выравнивание гистограммы, и/или восстановление тени.
[18] Также указанный технический результат достигается благодаря реализации устройства отображения трехмерного лица объекта, содержащее: трехмерный дисплей, выполненный в форме лица с возможностью отображения трехмерной модели лица объекта; блок управления, выполненный с возможностью управления мимикой лица на устройстве отображения в режиме реального времени на основе мимической модели объекта; память, выполненную с возможностью хранения данных о трехмерной модели лица объекта и набора мимики.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[19] Признаки и преимущества настоящего изобретения станут очевидными из приводимого ниже подробного описания изобретения и прилагаемых чертежей, на которых:
[20] На Фиг. 1 показан пример осуществления в уровне техники дисплеев, расположенных на голове робота;
[21] На Фиг. 2 показан пример реализации стереосистемы для получения стереопары изображений: для точки S реальной модели существуют проекции на плоскость снимков S1 и S2;
[22] На Фиг. 3 показано условие Делоне, согласно которому сфера, описанная вокруг симплекса не содержит вершин других симплексов из заданного набора триангуляции;
[23] На Фиг. 4 показан пример реализации построения триангуляции;
[24] На Фиг. 5 показан пример реализации полигональной модели лица объекта;
[25] На Фиг. 6 показан пример проецирования трехмерной модели лица на LED устройство, в рамках которого осуществляют аффинное преобразование проецируемого изображения;
[26] На Фиг. 7 показан пример реализации выявленных эмоций искусственной нейронной сетью, которые могут быть следующими: гнев, счастье, страх, печаль, отвращение и нейтральность;
[27] На Фиг. 8 показан пример реализации способа отображения трехмерного лица объекта и устройство для него;
[28] На Фиг. 9 показано отображения трехмерного лица объекта;
[29] На Фиг. 10 показан пример реализации основных контрольных точек и фрагментов лица, которые могут быть использованы при формировании трехмерной модели лица объекта;
[30] На Фиг. 11 показан пример осуществления трехмерного дисплея, выполненного в форме лица, когда дисплей отсоединен от устройства отображения трехмерного лица объекта, причем объектом является человек;
[31] На Фиг. 12 показан пример осуществления трехмерного дисплея, выполненного в форме лица, когда дисплей присоединен к устройству отображения трехмерного лица объекта, причем объектом является человек;
[32] На Фиг. 13 показан пример осуществления трехмерного дисплея, выполненного в форме лица, когда дисплей отсоединен от устройства отображения трехмерного лица объекта, причем объектом является животное, а именно собака;
[33] На Фиг. 14 показан пример осуществления трехмерного дисплея, выполненного в форме лица, когда дисплей присоединен к устройству отображения трехмерного лица объекта, причем объектом является животное, а именно собака;
[34] На Фиг. 15 показан пример осуществления трехмерного дисплея, выполненного в форме лица, когда дисплей отсоединен от устройства отображения трехмерного лица объекта, причем объектом является робот или андроид;
[35] На Фиг. 16 показан пример осуществления трехмерного дисплея, выполненного в форме лица, когда дисплей присоединен к устройству отображения трехмерного лица объекта, причем объектом является робот или андроид.
ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
[36] Данное техническое решение может быть реализовано на компьютере, в виде системы или машиночитаемого носителя, содержащего инструкции для выполнения вышеупомянутого способа.
[37] Техническое решение может быть реализовано в виде распределенной компьютерной системы.
[38] В данном решении под системой подразумевается компьютерная система, ЭВМ (электронно-вычислительная машина), ЧПУ (числовое программное управление), ПЛК (программируемый логический контроллер), компьютеризированные системы управления и любые другие устройства, способные выполнять заданную, четко определенную последовательность операций (действий, инструкций).
[39] Под устройством обработки команд подразумевается электронный блок либо интегральная схема (микропроцессор), исполняющая машинные инструкции (программы).
[40] Устройство обработки команд считывает и выполняет машинные инструкции (программы) с одного или более устройства хранения данных. В роли устройства хранения данных могут выступать, но, не ограничиваясь, жесткие диски (HDD), флеш-память, ПЗУ (постоянное запоминающее устройство), твердотельные накопители (SSD), оптические приводы.
[41] Программа - последовательность инструкций, предназначенных для исполнения устройством управления вычислительной машины или устройством обработки команд.
[42] Ниже будут описаны термины и понятия, необходимые для осуществления настоящего технического решения.
[43] Робот - автоматическое устройство, созданное по принципам распознавания, удержания и перемещения объектов во вредной и опасной средах, предназначенное для осуществления различного операций для производства, которое действует по заранее заложенной программе и получает информацию о положении и состоянии окружающего пространства посредством датчиков (технических аналогов органов чувств живых организмов). Робот самостоятельно осуществляет производственные и иные вспомогательные операции, удовлетворяющие производственные потребности частично или полностью заменяющие труд человека. При этом робот может как иметь связь с оператором, т.е. получать от него команды (ручное управление), так и действовать автономно, в соответствии с заложенной программой (автоматическое управление).
[44] Стереопара - пара плоских изображений одного и того же объекта, имеющая различия между изображениями, призванные создать эффект объема.
[45] Контрольными точками называются те точки, которые определяют геометрию лица.
[46] Контрольные фрагменты - те фрагменты лица, которые являются не точками, а описываются некоторыми кривыми.
[47] Триангуляцией называется пленарный граф, все внутренние области которого являются треугольниками. Задачей построения триангуляции по заданному набору двумерных точек называется задача соединения заданных точек непересекающимися отрезками так, чтобы образовалась триангуляция.
[48] Способ отображения трехмерного лица объекта, показанный на Фиг. 8 осуществляют следующим образом.
[49] Шаг 101: формируют по меньшей мере одну трехмерную модель лица объекта по меньшей мере по двум его фотографиям;
[50] Задача построения трехмерной модели лица объекта по его фотографии, а потом проекции данной трехмерной модели на трехмерное устройство отображения сводится к тому, чтобы определить набор из трех пространственных координат (х, у, z) для каждой точки будущей модели. Однако все дело в том, что получить пару координат (х, у) для любой точки плоской фотографии не составляет труда, но фотография двухмерна, и «глубина» каждой точки не известна. Для построения трехмерной модели необходимо иметь третью координату, чтобы сформировать набор точек трехмерной модели лица. Получение третьей координаты осуществляют за счет способа получения и обработки стереопары фотографий лица, который обеспечивает достаточно высокую скорость вычисления и хорошую точность.
[51] Объектом в данном техническом решении может быть человек, животное, андроид, вымышленный персонаж, игрушка и т.д., не ограничиваясь.
[52] Стереопару можно получить с помощью пары регистрирующих устройств, работающих одновременно (в зависимости от задачи это могут быть фото- или видеокамеры, киносъемочные аппараты, передающие телевизионные трубки и т.д.). Также стереопара может быть сформирована с использованием компьютерной графики из программ трехмерного моделирования при задании двух точек наблюдения. Стереопару для неподвижных объектов можно получать без специальных устройств, с помощью одного фотоаппарата или мобильного телефона с камерой. Для этого нужно сделать два кадра, сместившись на некоторое расстояние. Затем нужно оба кадра соединить на компьютере в один графический файл, так чтобы правое изображение было слева, а левое - справа.
[53] На Фиг. 2 показан пример работы стереосистемы для получения стереопары изображений: для точки S реальной модели существуют проекции на плоскость снимков S1 и S2.
[54] Итак, необходимо получить набор из координат x, у и z для точки S. В качестве пространственных координат (х,у) точек будущей трехмерной модели лица можно взять соответствующие координаты точек одной из фотографий. Для удобства определения координаты z одна из фотографий может быть фронтальной, то есть снимок осуществлен под прямым углом к лицу. Координата z любой точки при нормальной стереосъемке может быть вычислена с помощью координат х1 и х2 для этой точки на разных проекциях. Допустим, мы имеем некую точку S в пространстве, а ее проекции на плоскости фотографий имеют координаты S1=(х1, у1) и S2=(х2, у2). Тогда:
[55] Для построения точки в пространстве определяют координату z, имея две проекции этой точки. Таким образом, теперь задача сводится к определению такой пары точек А1 (х1, у1) и А2 (х2, у2) на стереофотографиях, чтобы они являлись проекциями одной точки А реального объекта. Данные проекционные точки отмечают на стереопаре фотографий. В качестве проецируемых точек объекта выбираются так называемые контрольные точки. Их может быть сколь угодно много, поскольку любая точка объекта является частью геометрии, однако есть несколько основных, с помощью которых можно определить примитивную геометрию лица.
[56] Ниже определены основные контрольные точки и фрагменты лица,
используемые в данном техническом решении, как показано на Фиг. 10:
[57] 1. Нос (границы крыльев носа, кончик носа, переносица);
[58] 2. Рот (уголки губ, середина верхней губы);
[59] 3. Глаза (уголки глаз, зрачок);
[60] 4. Брови (крайние точки бровей).
[61] В данном случае число контрольных точек, соответствующих каждому фрагменту, может быть любым, что очевидно для специалиста в уровне техники. Однако каждый из этих фрагментов может быть представлен только одной контрольной точкой. Например, верхнее веко можно обозначить точкой в его середине.
[62] Задача получения массива трехмерных координат для формирования трехмерной модели лица является основной, но ее решение не дает в результате полноценную трехмерную модель. Для построения поверхности модели и последующего ее текстурирования необходимо объединить набор вершин в полигоны посредством триангуляции. В триангуляции можно выделить три основных объекта: узел (точка, вершина), ребро (отрезок) и треугольник. В число операций над объектами триангуляции входят операции с ребрами, треугольниками и вершинами. При этом помимо определения входящих в состав объекта подобъектов (как, например, получение группы вершин треугольника) существуют операции определения смежных треугольников для текущего треугольника, ребра или вершины. Важнейшей операцией при выполнении триангуляции является проверка условия Делоне. Условие Делоне гласит, что сфера, описанная вокруг треугольника не содержит вершин других треугольников из заданного набора триангуляции (Фиг. 3).
[63] Существует несколько способов проверки условия Делоне. Кроме способа, основанного на прямой проверке через уравнение окружности, проходящей через вершины треугольника, существуют методы с лучшей производительностью. К таковым относится метод проверки суммы противолежащих углов, который может быть использован в данном техническом решении.
[64] При построении триангуляции может использоваться простой итеративный способ, согласно которому точки добавляются в уже частично построенный граф. Его суть в том, что для всей группы вершин строится супер структура - треугольник - которая охватывает все точки. При добавлении каждой новой вершины происходит удаление тех треугольников, у которых внутрь описанных окружностей попадает данный узел. При этом образуется контур - некий многоугольник, как показано на Фиг. 4. Затем строят полигональную модель лица объекта (Фиг. 5).
[65] Шаг 102: формируют по меньшей мере одну мимическую модель лица объекта посредством использования искусственной нейронной сети;
[66] Следующей задачей является воспроизведение эмоций на отображаемом лице посредством использования нейронной сети. Люди взаимодействуют друг с другом или, например, с домашними животными, в основном посредством речи, а также с помощью жестов тела, чтобы подчеркнуть части их речи и проявить эмоции. Одним из важных способов показать эмоции является выражение лица, которое является очень важной частью общения. Мы отправляем и получаем устные сообщения через использование невербальных коммуникаций. Лицевые выражения передают невербальные реплики, и играют важную роль в межличностных отношениях. Автоматическое распознавание выражения лица может быть важной составляющей естественного человеко-машинного интерфейса. Несмотря на то, что люди распознают мимику практически без усилий или задержки, надежное распознавание выражений машиной все еще является проблемой. Достигнуты некоторые успехи в последние несколько лет с точки зрения обнаружения лица, разработаны механизмы извлечения признаков и методы для классификации выражений лица.
[67] В некоторых вариантах реализации данного технического решения могут использоваться наборы данных для автоматического распознавания эмоций объекта искусственной нейронной сетью, такие как расширенный набор данных Cohn-Kanade (СК+), база данных выражений лиц MMI и набор данных лиц Торонто (TFD). Вышепоказанные наборы данных представляют собой обученные выборки данных и могут являться шаблонами для формирования мимической модели лица.
[68] При формировании мимической модели лица объекта получают набор фотографий данного объекта и определяют набор эмоций. Для распознавания эмоций могут использоваться сверточные нейронные сети (CNN). Выявленные эмоции, могут быть например следующими: гнев, счастье, страх, печаль, отвращение и нейтральность, как показано на Фиг. 7.
[69] В некоторых вариантах осуществления используют сверточную нейронную сеть (CNN) совместно с рекуррентной нейронной сетью (RNN) для повышения точности распознавания эмоций.
[70] В некоторых вариантах осуществления изобретения могут использоваться другие методы, используемые для распознавания эмоций объекта: байесовские сети, многослойные нейронные сети и скрытые Марковские модели.
[71] В других вариантах реализации для осуществления распознавания эмоций объекта дополнительно используют сенсорные датчики носимых устройств. Например, во время злости или тревоги человека, повышается его пульс, что фиксируется сенсорным датчиком носимого устройства и таким образом влияет на определение эмоций данного объекта.
[72] Варианты осуществления, которые описаны здесь, позволяют обнаруживать и распознавать изображения лиц с широкими вариациями в их положении перед видеокамерой, освещении, степени старения пользователя, его расе и т.д. В данном техническом решении могут использоваться известные из уровня техники традиционные способы распознавания лиц. Современные способы распознавания лиц предоставляют решения в режиме реального времени, которые обеспечивают высокие скорости распознавания, в том числе посредством анализа 3D-модели лица. Для определения непосредственно в режиме реального времени эмоций объекта на лице может использоваться способ Экмана и Фризена, который позволяет кодировать лицевые движения лица (FACS), где анатомические движения на лице описываются набором единиц действия (action units), которые имеют некоторую связанную мышечную основу. Отслеживая движения лица и измеряя количество движений на лице, используемый способ классифицирует различные выражения лица и эмоции. В одной из реализаций способа при распознавании эмоций формируется статическая 3D-модель лица и/или анализируется 3D-модель лица в динамике. В первом кадре полученной последовательности изображений из видеокамеры выбираются ориентирные черты лица, такие например как углы глаз и углы рта.
Затем осуществляется анализ изменения выбранных ориентирных черт лица и на основании данных изменений осуществляется классификация и запись эмоций.
[73] Также дополнительно в данном изобретении могут осуществлять распознавание эмоций на основании речи объекта, учитывая ее скорость, тональность и т.д. Например, если речь объекта ускоряется, значит он начинает испытывать тревогу. Разные люди в спокойном состоянии говорят с разной скоростью. В том числе в некоторых языках речь более размеренная, а в других рубленная и быстрая, что также может учитывать в данном изобретении.
[74] В других вариантах осуществления распознавания эмоций осуществляется посредством использования голосового помощника, например, такого как Alexa, Cortana, Siri.
[75] На данном шаге в некоторых вариантах осуществления во время формирования мимической модели лица объекта связывают выявленные и записанные эмоции объекта с речевыми характеристиками данного объекта.
[76] Шаг 103: отображают трехмерную модель лица объекта на по меньшей мере одно трехмерное устройство отображения, причем осуществляя преобразование лица при отображении.
[77] При проецировании трехмерной модели лица на трехмерное LED устройство или OLED устройство, могут возникнуть проблемы с искажением. Избавиться от данного искажения можно посредством использования аффинного преобразования трехмерной модели лица (Фиг. 6).
[78] При осуществлении трехмерного проекционного отображения необходимо знание физических характеристик устройства отображения и координат поверхности для достижения желаемого эффекта. Эти размеры/местоположение являются стационарными и, следовательно, не меняются, что облегчает задачу отображения трехмерной модели.
[79] Таким образом, 3D-модель лица объекта проецируется или накладывается по точкам в (виртуальное) представление проекционной поверхности/трехмерного устройства отображения для расчета правильного рендеринга с учетом точки наблюдения и перспективы.
[80] Затем, по контрольным точкам устройства отображения определяют наклон и угол поворота лица, отслеживая любые движения и корректируя трехмерную модель. В некоторых вариантах осуществления создают грим на трехмерной модели лица, накладывают изображение, меняют цвет.
[81] В некоторых вариантах осуществления каждая трехмерная модель лица может проходить стадии улучшения изображения, такие как, но не ограничиваясь, гамма-коррекция, выравнивание гистограммы и восстановление тени. В других вариантах осуществления может быть использован любой из множества способов улучшения изображения, которые повышают общее качество входного изображения и повышают надежность последующих процессов управлений эмоциями лица в изменяющихся условиях освещения.
[82] В некоторых вариантах осуществления при отображении трехмерной модели лица объекта могут использовать фейс-хакинг (англ. Face haking). Например, на щеку трехмерного дисплея, выполненного в форме маски садится бабочка или по лицу андроида растекается лава.
[83] В других вариантах осуществления накладывают на трехмерную модель лица усы, волосы, очки, бороду, родинки и т.д.
[84] Шаг 104: осуществляют управление мимикой лица на устройстве отображения в режиме реального времени на основе мимической модели лица объекта.
[85] Мимическая модель лица может содержать параметры, представляющие с разной степенью интенсивность шести эмоций в целом, а именно: «радость», «грусть», «гнев», «сюрприз», «отвращение» и «страх» соответственно. Модель в режиме реального времени обновляет значения параметров соответствующих эмоций на основе конкретных результатов распознавания лиц на основании семантики распознанного аудио или текста, истекшего времени, отведенного на эмоцию, смене порядка действий, интонации и т.д.
[86] Более конкретно, пусть ΔE[t] обозначает количество изменений в эмоции во время, вычисленное в соответствии с формулой на основе результата распознавания эмоции нейронной сетью с учетом семантики распознанного аудио или текста, истекшего времени, отведенного на эмоцию, смене порядка действий, интонации и т.д. Пусть E[t] обозначает текущее значение параметра эмоции, а ke обозначает коэффициент, описывающий чувствительность эмоции. Мимическая модель вычисляет значение параметра E[t+1] эмоции в следующем моменте времени по уравнению E[t+1]=E[t]+ke+ΔE[t], заменив при этом текущее значение параметра E[t] эмоции, чтобы обновить значение параметра эмоции. Таким образом, мимическая модель обновляет значения параметров для всех эмоций.
[87] Степень, на которую влияет величина изменения ΔE[t] значения параметра каждой из эмоций, определяется результатами распознавания эмоций. Например, результат распознавания, обозначающий «пораженный», значительно влияет на величину изменения ΔE[t] значения параметра, представляющего эмоцию «гнева». Результат распознавания, обозначающий «спокойный», значительно влияет на величину изменения ΔE[t] значения параметра, представляющего эмоцию «радость».
[88] В некоторых вариантах реализации эмоции могут управляться блоком управления на основании распознавания внешней информации посредством использования устройства ввода информации. Устройство ввода информации может включать в себя, например, слуховое устройство ввода, устройство визуального ввода, устройство ввода оценки, клавиатуру, устройство связи, термометр и т.д.
[89] Как показано выше, устройство ввода может включать в себя микрофон в качестве слухового устройства ввода, камеру как визуальное устройство ввода, переключатель или кнопку, клавиатуру для ввода оценки пользователя в качестве устройства ввода оценки, а также антенну, модем или просто входной порт в качестве устройства связи. Однако устройства ввода информации не ограничены указанными выше. Может использоваться любое другое устройство ввода, которое доступно на рынке, способное визуально, тактильно или аудиально обнаруживать внешнюю информацию и которое может обращаться к внешним базам данных. Термин «внешняя информация» означает не только информацию об окружающей среде, такую как температура, яркость или время, но также информацию, полученную из внешних баз данных, от пользователя или системы. [90] Мимическая модель лица циклически изменяет параметрическое значение каждой из эмоций, вычисляя уравнение E[t+1]=E[t]+ke+ΔE[t] на основе различных результатов распознавания внешних датчиков, например звука, температуры, освещения и т.д.
[91] В рамках изменения параметрических значений каждой из эмоций увеличивается или уменьшается значение коэффициента ke в уравнении для предопределенной соответствующей эмоции на основе результатов распознавания как «звука», «температуры» и «освещения», подаваемых из внешних датчиков.
[92] Например, когда распознается звук, соответствующий категории «шумный», мимическая модель лица увеличивает значение коэффициента ke для «гневной» эмоции» на заранее заданное число. С другой стороны, когда результат распознавания соответствует категории «тихий», мимическая модель лица уменьшит значение коэффициента ke для «гневной» эмоции на заданное число. Таким образом, параметрическое значение эмоции «гнева» будет изменено под воздействием окружающего «шума».
[93] Кроме того, когда подается результат распознавания от датчика температуры «жарко», мимическая модель эмоций уменьшает значение коэффициента ke для «радостной» эмоции на заданное число. С другой стороны, если полученный результат распознавания датчика температуры показывает «холодно», мимическая модель эмоций увеличивает значение коэффициента ke для «грустной» эмоции на заданное число. Таким образом, параметрическое значение эмоции «грусть» будет изменено под воздействием «температуры» окружающей среды.
[94] В нескольких вариантах осуществления процесс обнаружения и отслеживания эмоций лица включает в себя определение векторов признаков, например, лиц и выражений лица, которые наиболее точно соответствуют лицу, обнаруженному в видеоизображении. В некоторых вариантах осуществления вектор признаков изменяется в пространстве лиц и выражений лиц. Данные изменения определяются путем определения изменений вектора признаков в пространстве лиц и мимических выражений, наиболее близких к обнаруженным изменениям в выражениях лица. Описание пространства лицевых эмоций и выражений лица можно получить, выполнив обучение искусственной нейронной сети на основе входных изображений лица объекта. Во некоторых вариантах осуществления обучающий набор может включать в себя двумерные или трехмерные изображений (трехмерные модели лица), где трехмерные изображения могут включать в себя дополнительные метаданные, включая (но не ограничиваясь ими) карту глубины.
[95] Отслеживание и изменений выражений лица может быть определено путем отслеживания вектора признаков на основании мимической модели лица, которая наилучшим образом соответствуют выражениям лица обнаруженного лица в видеопоследовательности. Мимическая модель лица объекта использует геометрические и текстурные компоненты лиц. Во многих вариантах осуществления вектор признаков представляет собой комбинацию дескриптора геометрического компонента лица (т.е. вектор коэффициентов, описывающий геометрию лица, например, как сумму собственных векторов лицевой геометрии) и дескриптора текстурного компонента лица (т.е. вектор коэффициентов, описывающий предметную текстуру лица, например, как сумму лицевых собственных векторов). Вектор функции, который наиболее точно описывает геометрию лица, может быть найден или пересчитан путем масштабирования и позиционирования трехмерной модели лица, сформированной на основании фотографий пользователя, относительно шаблона, а затем поиска геометрических и текстурных компонентов вектора признаков на основании мимической модели лица, которая наиболее близко соответствует масштабируемому лицу.
[96] Вышеописанный способ, показанный на Фиг. 8, может быть реализован на устройстве отображения трехмерного лица объекта, показанном на Фиг. 9, которое содержит:
- трехмерный дисплей 901, выполненный в форме маски и с возможностью отображения трехмерной модели лица объекта;
- блок 902 управления, выполненный с возможностью управления мимикой лица на устройстве отображения в режиме реального времени на основе мимической модели объекта;
- память 903, выполненную с возможностью хранения данных о трехмерной модели лица объекта и мимической модели лица объекта.
[97]. В некоторых вариантах осуществления трехмерный дисплей 901 может быть выполнен в виде маски лица человека для ношения на человеке или на андроиде (Фиг. 11 и Фиг. 12).
[98] В некоторых вариантах осуществления трехмерный дисплей 901 может быть выполнен в виде маски лица животного для ношения на человеке или на андроиде (Фиг. 13 и Фиг. 14).
[99] В некоторых вариантах осуществления трехмерный дисплей 901 может быть выполнен в виде маски лица робота для ношения на человеке или на андроиде (Фиг. 15 и Фиг. 16).
[100] Дисплей 901 может быть изготовлен посредством применения технологии LCD (жидкокристаллический дисплей) или технологии LPD (светоизлучающий полимерный дисплей), хотя другие технологии отображения могут использоваться в других вариантах осуществления, очевидных для специалиста в уровне техники.
[101] В некоторых вариантах осуществления дисплей 901 выполнен из одного светодиода (LED, OLED) монолитным, а в других вариантах из сегментной панели светодиодов, образованной множеством светодиодов, которые посредством их избирательного освещения выражают эмоциональное состояние человека.
[102] Объемный дисплей 901 отображает глаза, брови, нос, рот человека на роботе, которые анимируются синхронно с речью для того, чтобы показать невербальное поведение робота. Дисплей 901 может подсвечиваться только во время взаимодействия с пользователем для экономии энергии робота. В альтернативных вариантах осуществления объемный дисплей 901 может быть отражающей панелью или подсвечиваться с помощью внешнего источника освещения в помещении. Дисплей 901 также может быть панелью с органическим светодиодом (OLED), для которой может не потребоваться подсветка (хотя ее можно использовать), и она может потреблять меньше энергии.
[103] Дисплей 901 может быть сконструирован с использованием рефлексивной бистабильной (энергонезависимой) технологии, такой как электрофоретическое, электронное скручивание по кругу, электронные чернила или электронные бумажные дисплеи и/или гибридные электронные чернила / дисплеи на активной матрице. Электрофоретические или электронные дисплеи для чернил производятся с использованием высококонтрастной низкомощной технологии, которая является бистабильной и сохраняет изображение при отсутствии питания (например, матрица изображений высокого разрешения E-Ink™ или сегментные ячейки дисплея от Е-lnk Corporation или электронные чернила / гириконные листы от Xerox / 3М). Этот тип технологии может иметь время переключения около 0,5-1 с, что позволяет удовлетворительно отображать карикатурные выражения лица. Гибридные дисплеи с электронными чернилами / активной матрицей объединяют заднюю плоскость активной матрицы тонкопленочного транзистора (TFT). Типы дисплеев, работающие на разных принципах, но отображающие по крайней мере некоторые из идентифицированных характеристик (отражающие или прозрачные, очень малой мощности, бистабильные и т.д.) представляют собой электронные бумажные дисплеи Fujitsu (пленки с избирательным отражением, расположенные на подложке цветного дисплея от Fujitsu, Япония).
[104] При описании объемного дисплея термин «сегментная панель» означает панель, состоящую из множества элементов дискретной формы, а не монолитную матрицу X-Y пикселей. Потенциальные преимущества одной монолитной матрицы X-Y пикселей состоят в том, что ее можно использовать в качестве альтернативного (или единственного) информационного дисплея и что отображаемые на ней лица или выражения лица могут быть полностью изменены в программном обеспечении, загружены или разработаны пользователем. Однако сегментная панель может быть проще и эффективнее, так как она может давать чрезвычайно гладкие контуры сегментов. Причем данная панель может быть легче адаптирована к пользовательскому программному обеспечению.
[105] В некоторых вариантах реализации может использоваться восьмиугольная или другая многогранная многоугольная форма панели, которая позволяет покрывать большую часть площади поверхности головы робота. Рот, глаза и брови могут быть произвольно сформированы из множества пикселей с использованием матричного дисплея или могут быть сформированы в виде набора из нескольких сегментов с использованием сегментного дисплея.
[106] Блок 902 управления, который осуществляет управление мимикой лица на дисплее 901 в режиме реального времени на основе мимической модели человека эквивалентен «мозгу» пользователя и загружается, например, в головную или туловищную часть основного корпуса робота.
[107] Блок 902 управления может представлять собой центральный процессор (CPU), используемый в качестве основного контроллера, подключенного по шине к памяти, компонентам схемы или периферийным устройствам. Эта шина является общим путем для передачи сигнала, например, по шине данных, адресной шине или шине управления. Для соответствующих периферийных устройств на шине выделяются внутренние адреса (адреса памяти или адреса ввода / вывода). Указав адреса, CPU может осуществлять связь с указанными устройствами по шине. Блок 902 управления связан с памятью 903, которая представляет собой ОЗУ или ПЗУ, не ограничиваясь.
[108] ОЗУ (оперативное запоминающее устройство) представляет собой перезаписываемую память, образованную энергозависимой памятью, такой как DRAM (динамическое оперативное запоминающее устройство), и используется для загрузки программного кода, выполняемого CPU, или для временного хранения рабочих данных выполняемой программой.
[109] ПЗУ (постоянное запоминающее устройство) является постоянной памятью для постоянного хранения программ или данных.
[110] Блок 902 управления может также включать в себя интерфейс беспроводной связи или карту сетевого интерфейса (NIC) для обеспечения беспроводной связи, такой как Bluetooth, или передачу данных с переменными внешними хост-компьютерами через беспроводную сеть, например IEEE 802.11b, или через широкополосную сеть, такую как Интернет.
Изобретение относится к области вычислительной техники, а более конкретно к отображению лица объекта на объемный трехмерный дисплей. Технический результат – повышение точности отображения трехмерного лица объекта на трехмерное устройство отображения. Способ отображения трехмерного лица объекта включает следующие шаги, на которых: формируют по меньшей мере одну трехмерную модель лица объекта по меньшей мере по двум его фотографиям; формируют по меньшей мере одну мимическую модель лица объекта посредством использования искусственной нейронной сети; отображают трехмерную модель лица объекта на по меньшей мере одно трехмерное устройство отображения, причем осуществляя преобразование лица объекта при отображении посредством определения наклона и угла поворота лица по его контрольным точкам, отслеживания любых движений и корректирования трехмерной модели; и осуществляют управление мимикой лица на трехмерном устройстве отображения в режиме реального времени на основе мимической модели лица объекта. 2 н. и 5 з.п. ф-лы, 16 ил.
Автоматическое построение 3d модели лица по серии 2d изображений или по видеофильму