Нейронные сетевые системы и компьютерно-реализуемые способы идентификации и/или оценки одного или более пищевых изделий в визуальной входной информации - RU2018130482A

Код документа: RU2018130482A

Формула

1. Способ, содержащий:
прием с помощью процессора непрерывного видеопотока, по меньшей мере, из одного положения камеры над столом, сконфигурированным для приема готовых пицц;
сбор с помощью процессора множества видеокадров с пиццей, содержащих видеокадры с конкретной пиццей, из этого видеопотока;
применение с помощью процессора первой CNN для выбора набора видеокадров конкретной пиццы с наилучшей пиццей из множества видеокадров с пиццей;
применение с помощью процессора первой CNN для идентификации изображения конкретной пиццы с наилучшей пиццей из набора видеокадров с наилучшей пиццей;
применение с помощью процессора первой CNN для локализации, по меньшей мере, одной порции конкретной пиццы в идентифицированном изображении с наилучшей пиццей;
применение с помощью процессора первой CNN для определения типа конкретной пиццы из идентифицированного изображения с наилучшей пиццей;
применение с помощью процессора второй CNN для задания карты компонентов конкретной пиццы в результате автоматического выполнения сегментации изображения порции пиццы на основе, по меньшей мере, типа пиццы; и
применение с помощью процессора второй CNN для автоматического подсчета баллов конкретной пиццы на основе заданной карты компонентов пиццы, содержащее:
разделение с помощью процессора порции пиццы из идентифицированного наилучшего изображения на множество ломтиков;
вычисление с помощью процессора градиентов одного из множества ломтиков конкретной пиццы;
повторение с помощью процессора этапа вычисления градиентов оставшихся ломтиков из множества ломтиков; и
определение с помощью процессора итогового балла конкретной пиццы на основе вычисления градиентов множества ломтиков.
2. Способ по п. 1, отличающийся тем, что видеокадры видеопотока распределяются по категориям в случаях, содержащих:
i) первый случай для изображений без пиццы;
ii) второй случай для нецентрированных изображений с пиццей;
iii) третий случай для центрированных изображений с пиццей и качеством разрешения, составляющим X;
iv) четвертый случай для центрированных изображений с пиццей и качеством разрешения, составляющим Y, где Y выше, чем X;
v) пятый случай для центрированных изображений с пиццей первого типа и требуемым качеством разрешения; и
v) шестой случай для центрированных изображений с пиццей второго типа и требуемым качеством разрешения.
3. Способ по п. 1, отличающийся тем, что выбор набора видеокадров с наилучшей пиццей дополнительно содержит обесценивание каждого видеокадра с пиццей с размытостью вследствие движения и/или размытостью вследствие расфокусировки.
4. Способ по п. 1, отличающийся тем, что число элементов множества ломтиков составляет 8.
5. Способ по п. 1, отличающийся тем, что вторая CNN имеет путь сжатия и путь расширения.
6. Способ по п. 5, отличающийся тем, что путь сжатия содержит множество слоев свертки и активации.
7. Способ по п. 6, отличающийся тем, что путь сжатия дополнительно содержит слой субдискретизации и пакетной нормализации, следующий за первым слоем свертки и активации.
8. Способ по п. 6, отличающийся тем, что путь сжатия дополнительно содержит слой выпрямленных линейных единиц (ReLU) и слой подвыборки, следующие за каждым слоем свертки и активации перед переходом к следующему слою свертки и активации.
9. Способ по п. 5, отличающийся тем, что путь расширения содержит последовательность повышающих сверток и конкатенаций, сконфигурированных для объединения пространственной информации о признаках с признаками предварительно заданного разрешения от пути сжатия.
10. Способ по п. 1, отличающийся тем, что применение первой CNN для локализации, по меньшей мере, одной порции конкретной пиццы в идентифицированном наилучшем изображении пиццы дополнительно содержит:
определение ограничивающей рамки; и
использование одной или более предварительно заданных двоичных масок.
11. Система, содержащая:
по меньшей мере, одно устройство захвата изображения;
долговременное запоминающее устройство;
один или более процессоров; и
компьютерный программный код, хранимый в этом долговременном запоминающем устройстве, обеспечивающий при исполнении одним или более процессорами выполнение одним или более процессорами:
приема с помощью процессора непрерывного видеопотока, по меньшей мере, из одного положения камеры над столом, сконфигурированным для приема готовых пицц;
сбора с помощью процессора множества видеокадров с пиццей, содержащих видеокадры с конкретной пиццей, из этого видеопотока;
применения с помощью процессора первой CNN для выбора набора видеокадров конкретной пиццы с наилучшей пиццей из множества видеокадров с пиццей;
применения с помощью процессора первой CNN для идентификации изображения конкретной пиццы с наилучшей пиццей из набора видеокадров с наилучшей пиццей;
применения с помощью процессора первой CNN для локализации, по меньшей мере, одной порции конкретной пиццы в идентифицированном изображении с наилучшей пиццей;
применения с помощью процессора первой CNN для определения типа конкретной пиццы из идентифицированного изображения с наилучшей пиццей;
применения с помощью процессора второй CNN для задания карты компонентов конкретной пиццы в результате автоматического выполнения сегментации изображения порции пиццы на основе, по меньшей мере, типа пиццы; и
применения с помощью процессора второй CNN для автоматического подсчета баллов конкретной пиццы на основе заданной карты компонентов пиццы, содержащего:
разделение с помощью процессора порции пиццы из идентифицированного наилучшего изображения на множество ломтиков;
вычисление с помощью процессора градиентов одного из множества ломтиков конкретной пиццы;
повторение с помощью процессора этапа вычисления градиентов оставшихся ломтиков из множества ломтиков; и
определение с помощью процессора итогового балла конкретной пиццы на основе вычисления градиентов множества ломтиков.
12. Система по п. 11, отличающаяся тем, что видеокадры видеопотока распределяются по категориям в случаях, содержащих:
i) первый случай для изображений без пиццы;
ii) второй случай для нецентрированных изображений с пиццей;
iii) третий случай для центрированных изображений с пиццей и качеством разрешения, составляющим X;
iv) четвертый случай для центрированных изображений с пиццей и качеством разрешения, составляющим Y, где Y выше, чем X;
v) пятый случай для центрированных изображений с пиццей первого типа и требуемым качеством разрешения; и
v) шестой случай для центрированных изображений с пиццей второго типа и требуемым качеством разрешения.
13. Система по п. 11, отличающаяся тем, что инструкции по выбору набора видеокадров с наилучшей пиццей дополнительно содержат обесценивание каждого видеокадра с пиццей с размытостью вследствие движения и/или размытостью вследствие расфокусировки.
14. Система по п. 11, отличающаяся тем, что число элементов множества ломтиков составляет 8.
15. Система по п. 11, отличающаяся тем, что вторая CNN имеет путь сжатия и путь расширения.
16. Система по п. 15, отличающаяся тем, что путь сжатия содержит множество слоев свертки и активации.
17. Система по п. 16, отличающаяся тем, что путь сжатия дополнительно содержит слой субдискретизации и пакетной нормализации, следующий за первым слоем свертки и активации.
18. Система по п. 16, отличающаяся тем, что путь сжатия дополнительно содержит слой выпрямленных линейных единиц (ReLU) и слой подвыборки, следующие за каждым слоем свертки и активации перед переходом к следующему слою свертки и активации.
19. Система по п. 15, отличающаяся тем, что путь расширения содержит последовательность повышающих сверток и конкатенаций, сконфигурированных для объединения пространственной информации о признаках с признаками предварительно заданного разрешения от пути сжатия.
20. Система по п. 11, отличающаяся тем, что применение первой CNN для локализации, по меньшей мере, одной порции конкретной пиццы в идентифицированном наилучшем изображении пиццы дополнительно содержит:
определение ограничивающей рамки; и
использование одной или более предварительно заданных двоичных масок.
21. Долговременный считываемый компьютером носитель информации, содержащий исполняемые процессором инструкции по:
приему с помощью процессора непрерывного видеопотока, по меньшей мере, из одного положения камеры над столом, сконфигурированным для приема готовых пицц;
сбору с помощью процессора множества видеокадров с пиццей, содержащих видеокадры с конкретной пиццей, из этого видеопотока;
применению с помощью процессора первой CNN для выбора набора видеокадров конкретной пиццы с наилучшей пиццей из множества видеокадров с пиццей;
применению с помощью процессора первой CNN для идентификации изображения конкретной пиццы с наилучшей пиццей из набора видеокадров с наилучшей пиццей;
применению с помощью процессора первой CNN для локализации, по меньшей мере, одной порции конкретной пиццы в идентифицированном изображении с наилучшей пиццей;
применению с помощью процессора первой CNN для определения типа конкретной пиццы из идентифицированного изображения с наилучшей пиццей;
применению с помощью процессора второй CNN для задания карты компонентов конкретной пиццы в результате автоматического выполнения сегментации изображения порции пиццы на основе, по меньшей мере, типа пиццы; и
применению с помощью процессора второй CNN для автоматического подсчета баллов конкретной пиццы на основе заданной карты компонентов пиццы, содержащему:
разделение с помощью процессора порции пиццы из идентифицированного наилучшего изображения на множество ломтиков;
вычисление с помощью процессора градиентов одного из множества ломтиков конкретной пиццы;
повторение с помощью процессора этапа вычисления градиентов оставшихся ломтиков из множества ломтиков; и
определение с помощью процессора итогового балла конкретной пиццы на основе вычисления градиентов множества ломтиков.
22. Долговременный считываемый компьютером носитель информации по п. 21, отличающийся тем, что видеокадры видеопотока распределяются по категориям в случаях, содержащих:
i) первый случай для изображений без пиццы;
ii) второй случай для нецентрированных изображений с пиццей;
iii) третий случай для центрированных изображений с пиццей и качеством разрешения, составляющим X;
iv) четвертый случай для центрированных изображений с пиццей и качеством разрешения, составляющим Y, где Y выше, чем X;
v) пятый случай для центрированных изображений с пиццей первого типа и требуемым качеством разрешения; и
v) шестой случай для центрированных изображений с пиццей второго типа и требуемым качеством разрешения.
23. Долговременный считываемый компьютером носитель информации по п. 21, отличающийся тем, что исполняемые процессором инструкции по выбору набора видеокадров с наилучшей пиццей дополнительно содержат обесценивание каждого видеокадра с пиццей с размытостью вследствие движения и/или размытостью вследствие расфокусировки.
24. Долговременный считываемый компьютером носитель информации по п. 21, отличающийся тем, что число элементов множества ломтиков составляет 8.
25. Долговременный считываемый компьютером носитель информации по п. 21, отличающийся тем, что вторая CNN имеет путь сжатия и путь расширения.
26. Долговременный считываемый компьютером носитель информации по п. 25, отличающийся тем, что путь сжатия содержит множество слоев свертки и активации.
27. Долговременный считываемый компьютером носитель информации по п. 26, отличающийся тем, что путь сжатия дополнительно содержит слой субдискретизации и пакетной нормализации, следующий за первым слоем свертки и активации.
28. Долговременный считываемый компьютером носитель информации по п. 26, отличающийся тем, что путь сжатия дополнительно содержит слой выпрямленных линейных единиц (ReLU) и слой подвыборки, следующие за каждым слоем свертки и активации перед переходом к следующему слою свертки и активации.
29. Долговременный считываемый компьютером носитель информации по п. 25, отличающийся тем, что путь расширения содержит последовательность повышающих сверток и конкатенаций, сконфигурированных для объединения пространственной информации о признаках с признаками предварительно заданного разрешения от пути сжатия.
30. Долговременный считываемый компьютером носитель информации по п. 21, отличающийся тем, что исполняемые процессором инструкции по применению первой CNN для локализации, по меньшей мере, одной порции конкретной пиццы в идентифицированном наилучшем изображении пиццы дополнительно содержат:
определение ограничивающей рамки; и
использование одной или более предварительно заданных двоичных масок.

Авторы

Заявители

СПК: G06Q10/06 G06Q50/12

Публикация: 2020-02-25

Дата подачи заявки: 2018-08-22

0
0
0
0
Невозможно загрузить содержимое всплывающей подсказки.
Поиск по товарам