Системы идентификации личности широко используются в современном мире. Из множества методов выделения лиц на изображении наиболее перспективным является применение алгоритмов на основе нейронных сетей.
Целью настоящего исследования являлось проектирование и испытание интеллектуальной системы для распознавания лиц, основанной на данной технологии. В ходе предварительного анализа методов машинного обучения было установлено, что оптимальным подходом является использование моделей, базирующихся на анализе микродвижений лица с последующим построением карты точек.
На основе полученных данных была разработана система идентификации лиц с использованием технологий компьютерного зрения. Система основана на методе создания сложных архитектур, включающих в себя анализ различных признаков и дополнительные алгоритмы.
Ключевой особенностью разработанной интеллектуальной системы является возможность анализа нескольких кадров для подтверждения микродвижений головой или моргания.
Результаты тестирования системы с использованием алгоритма градиентного бустинга деревьев регрессии показали успешное построение карты из 68 точек лица. Эта карта была использована для идентификации человеческих лиц по сравнению с объектами из базы данных.
Компьютерное зрение для распознавания лиц
В настоящее время технологии компьютерного зрения широко применяются в различных областях деятельности человека. Наиболее активно этот инструмент используется в сфере обеспечения безопасности, в частности, для биометрической идентификации.
Однако возможности компьютерного зрения не ограничиваются исключительно идентификацией. Оно также находит применение в распознавании эмоций. В маркетинге распознавание эмоций приобретает приоритетное значение, поскольку позволяет получать обратную связь от потребителей без их активного участия. Это способствует более мягкому и ненавязчивому воздействию на потенциальных покупателей товаров и услуг.
Анализ современных научных публикаций в области распознавания лиц и эмоций выявил несколько перспективных направлений исследований.
Так, часть работ посвящена проектированию систем искусственного интеллекта. В исследовании [1] ставилась задача обнаружения и идентификации человеческого лица как слабоконтрастного объекта с использованием систем кибернетического зрения. Публикации [2, 3, 4] рассматривают разработку и внедрение систем искусственного интеллекта в образовательной сфере. Авторы приводят результаты применения сенсорных электронных устройств с видеонаблюдением и распознаванием образов, а также статистические данные, полученные в ходе исследования. В работе [5] предлагается автоматическая система обнаружения лиц на основе сверхточной нейронной сети, которая может быть использована в системах машинного обучения, а также в автоматических системах распознавания лиц, речи и элементов жестовых языков. Статья [6] предлагает методы построения высокопроизводительных платформ прототипирования и приводит результаты работы алгоритмов компьютерного зрения с использованием нейросетевых технологий.
В ряде литературных источников уделяется внимание методам распознавания образов и их математическому обоснованию.
Так, в работе [7] проводится анализ различных методов распознавания лиц и эмоций, излагаются принципы их работы, а также преимущества и недостатки, влияющие на эффективность данного процесса. В исследовании [8] описывается метод термографического распознавания лиц и предлагается комбинированный принцип распознавания в видимом и инфракрасном диапазонах.
Статья [9] посвящена актуальным методам и этапам обработки программным обеспечением видеопотоков для идентификации человеческих лиц. В работе [10] предлагается способ применения алгоритма поиска лиц на изображении с использованием каскадов Хаара вместо алгоритма, реализованного в библиотеке dlib, что позволяет сократить время поиска в пятнадцать раз.
На основе использования нейронных сетей, исследование [11] описывает методы обучения нейронной сети на примере загруженной выборки и приводит результаты анализа эмоциональной реакции на предложенную рекламу в зависимости от пола и возраста.
Авторы многочисленных работ подтверждают актуальность данной тематики и необходимость разработки эффективных методов структурирования и обработки собираемых данных.
Например, в работе [12] описывается программно-аппаратное решение на базе “умных камер” для семантического анализа изображений с целью определения эмоционального состояния людей в общественных местах. Исследование [13] посвящено методам реализации функции распознавания лиц и принципам создания информационной системы обеспечения безопасности.
Работа [14] демонстрирует результаты разработки программного обеспечения для обнаружения и распознавания лиц, основанного на каскадах Хаара. Ключевыми преимуществами данного решения являются его доступная стоимость и возможность масштабирования путем подключения дополнительных видеокамер.
В публикации [15] представлена реализация системы распознавания лиц, предназначенной для повышения надежности систем контроля доступа. Разработка выполнена на языке Python с использованием библиотеки face_recognition, а также включат результаты тестирования и оценки системы.
Ряд исследований ([16, 17]) посвящен проектированию программных продуктов, основанных на идентификации по лицу и применяемых для учета посещения общественных мест.
В настоящее время существует широкий спектр методик распознавания лиц и эмоций. Наиболее популярными и эффективными из них являются:
- Активные модели внешнего вида:
- Опорные векторы:
- Информация о текстуре:
- Локальные бинарные шаблоны:
- Ключевые точки:
- Нейронные сети:
Для реализации технической стороны сбора и обработки статистических данных с целью распознавания эмоций, существует два основных подхода.
Первый метод предполагает использование специализированного программного обеспечения, установленного на сервере. При этом оборудование видеонаблюдения служит исключительно для формирования видеопотока, настраиваемого и управляемого удаленно. Второй метод реализуется посредством установки программно-аппаратных комплексов с интегрированными механизмами анализа данных, расположенных непосредственно на видеорегистраторе или видеокамере.
Комбинированный подход, синтезирующий достоинства различных методов распознавания с минимизацией их слабых сторон, оказывающих незначительное влияние на точность идентификации, признан наиболее эффективным на сегодняшний день.
В соответствии с этим, данный подход был положен в основу модели интеллектуальной системы для идентификации лиц человека с использованием технологий компьютерного зрения.
Цель настоящей статьи заключалась в разработке интеллектуальной системы распознавания лиц на основе технологии компьютерного зрения.
Выбор метода машинного обучения
В сфере компьютерного зрения алгоритмы машинного обучения на основе глубоких нейронных сетей демонстрируют наивысшую эффективность, превосходя точность классификации даже по сравнению с человеческими способностями.
Для идентификации лица необходимо определить местоположение объекта предварительно заданного класса и установить его координаты. Эта задача носит название «обнаружения».
Существует множество подходов к обнаружению лиц, каждый из которых отражается в архитектуре нейронной сети. Например, архитектура Faster R-CNN включает две нейронные сети. Первая предсказывает область интереса на изображении, где с высокой вероятностью находится лицо, а вторая классифицирует объект внутри этой области. В ходе проведенного исследования данная архитектура была модифицирована и оптимизирована.
Для создания устойчивого алгоритма распознавания лиц, защищенного от попыток злоумышленников использовать уязвимости системы аутентификации для подмены биометрических данных, необходимо провести всесторонний анализ существующих алгоритмов. В настоящее время существует множество способов обхода алгоритмов распознавания, таких как предъявление распечатанной фотографии или изображения лица на экране мобильного устройства вместо собственного лица.
Область исследований в компьютерном зрении, посвященная решению проблем уязвимости алгоритмов к обману, называется face anti-spoofing. Попытка обмана системы называется spoofing attack, а совокупность защитных мер против таких атак, реализованных в алгоритме распознавания, называется anti-spoofing.
Одним из широко распространённых методов защиты от атак типа “spoofing” является анализ нескольких кадров видеопотока для выявления признаков движения: поворотов головы, моргания, мимики лица. Для повышения надёжности системы пользователь может быть попрошен выполнить произвольный набор действий, последовательность которых будет затем проанализирована. Сложность заранее предсказать и подготовиться к такому набору действий затрудняет для злоумышленника проведение успешной атаки.
При печати изображения или демонстрации фотографии на дисплее алгоритм анализа способен обнаруживать характерные особенности ухудшения качества изображения и локальные паттерны. В общих чертах алгоритм сводится к вычислению интенсивностей пикселей, после чего каждый пиксель изображения сравнивается с его восемью соседями. По полученным последовательностям строятся попиксельные гистограммы, которые подаются на вход классификатору SVM (Support Vector Machine).
Помимо традиционных подходов машинного обучения, активно развиваются anti-spoofing методы, основанные на применении нейронных сетей. Решение задачи распознавания лиц может быть достигнуто путём ансамблирования нейронных сетей или создания сложных архитектур с использованием различных признаков и дополнительных алгоритмов. Данный подход демонстрирует убедительные результаты с высокой точностью.
Одним из вариантов такого подхода является анализ микродвижений лица, позволяющий определить повороты и смещения головы и, как следствие, изменение углов относительных расстояний между признаками на карте лица. Например, при горизонтальном смещении лица угол между носом и ухом увеличивается, что может быть зафиксировано алгоритмом. В случае подачи поддельного изображения или фотографии на вход алгоритма распознавания, углы практически не изменятся при повороте мобильного устройства.
Следовательно, для идентификации лиц целесообразно использовать методы машинного обучения, основанные на анализе микродвижений лица с последующим построением карты точек.
Интеллектуальная система для распознавания лиц
Для сбора и обработки статистических данных, необходимых для распознавания лиц, была разработана специализированная программная система, размещенная на сервере. Оборудование видеонаблюдения использовалось исключительно для формирования видеопотока, который настраивался и управлялся удаленно.
В качестве ядра информационной системы был выбран инструмент глубокого обучения TensorFlow, обладающий необходимым функционалом для решения задач компьютерного зрения.
Экспериментальное тестирование разработанной интеллектуальной системы проводилось с использованием одноплатного компьютера Jetson Nano и USB веб-камер Logitech HD Webcam моделей C310 и C525, а также Logitech Brio.
Освещение в помещениях, где проводились испытания, обеспечивалось люминесцентными лампами. Уровень освещенности соответствовал требованиям ГОСТ Р 55710-2013 “Освещение рабочих мест внутри зданий” и составлял не менее 200 лк. Для декодирования видеопотока использовалась библиотека OpenCV, написанная на языке Python.
В настоящем исследовании для хранения информации о пользователях, векторных характеристиках их лиц, параметрах камер и видеопотоков использовалась объектно-реляционная система управления базами данных с открытым исходным кодом PostgreSQL.
До начала анализа видеоматериалов были проведены предварительные этапы обучения моделей нейронных сетей. Модель детектора лиц с архитектурой MobileNetV2 была обучена на наборе данных Open Images V4, а модель детектора лиц с архитектурой ResNet34 – на наборах данных FaceScrub и VGG-Face. Обучение осуществлялось с использованием библиотеки машинного обучения Tensorflow при поддержке библиотек numpy и OpenCV.
После завершения этапа обучения моделей нейронных сетей был проведен анализ результатов их работы. Первый этап анализа заключался в детекции объекта – лица – на декодированных кадрах видеопотока. Для решения этой задачи была применена нейронная сеть с архитектурой MobilenetV2. Входными данными для сети являлся тензор изображения размером 640x480x3 (ширина, высота, количество цветовых каналов RGB). Размер тензора был уменьшен по сравнению с исходным кадром камеры для повышения скорости работы детектора. На выходе нейронной сети получались координаты объекта (лица) на изображении и вероятность его обнаружения в указанных координатах.
В целях обеспечения корректной работы системы были выбраны координаты объектов с вероятностью обнаружения более 70%, что позволило минимизировать количество ложных срабатываний по обнаружению лиц. Далее проводилась оценка занимаемой лицом площади кадра в отношении общей площади кадра. Данный показатель не должен был быть меньше 12-15%, что обеспечивало исключение из последующей обработки изображений лиц, расположенных на значительном удалении от камеры. В качестве объекта идентификации выбиралось лицо, обладающее наибольшей площадью на кадре.
Параллельно с этим осуществлялось декодирование объекта (лица) посредством нейронной сети с архитектурой ResNet34. Результатом данной операции являлись векторы, описывающие лица и имеющие размерность 128. После получения данных производился расчет евклидова расстояния между полученными векторами и ранее собранными из предоставленных фотографий объекта идентификации. При значении расстояния меньше порогового считалось, что объект на кадре и объект на предоставленных фотографиях – это один и тот же человек.
Активация системы распознавания происходила только в случае соответствия всех кадров условиям идентификации. Для повышения точности распознавания и исключения ложных срабатываний подобное сопоставление проводилось приблизительно 10-20 раз.
В основе подхода лежит предположение, что объект в процессе идентификации совершит характерные движения, такие как поворот головы. Для определения положения лица используется алгоритм градиентного бустинга деревьев регрессии, который генерирует карту из 68 лицевых ориентиров. Анализ угла между крайними боковыми точками и серединной точкой лица позволяет определить степень поворота головы.
Чтобы исключить возможность обмана системы статичными изображениями (например, фотографиями), используется анализ моргания. Для этого анализируются точки по периметру глаз на карте лицевых ориентиров. При моргании изменяется средний цвет пикселей в зоне внутри контура этих точек, что свидетельствует о динамическом характере изображения и подтверждает присутствие живого объекта.
Таким образом, система распознавания лиц становится более устойчивой к обману и точной за счет учета микродвижений.
Заключение
В результате разработана интеллектуальная система идентификации лиц, основанная на анализе микродвижений лица с построением карты точек.
Ключевой особенностью данной системы является многокадровый анализ микродвижений, таких как повороты головы или моргание. Каждый тип движения оценивается соответствующим коэффициентом. Суммирование этих коэффициентов позволяет системе определить подлинность объекта (лица). При достижении суммой коэффициентов определенного порога система исключает возможность подмены и увеличивает значение счетчика, накапливая статистические данные.
Литература
- Ванжа Т. В. Статистический анализ современных методов распознавания лиц и эмоций // Информатика и кибернетика. – №2 (16). – 2019. – С. 64-70. – https://elibrary.ru/item.asp?id=41142230.
- Леонтьев А. В. Российское программно-аппаратное решение распознавания эмоционального состояния людей для интеллектуальных экосистем / А.В. Леонтьев, А.В. Шершаков, Е.С. Янакова // Наноиндустрия. – S96-1. – 2020. – С. 125-128. – https://elibrary.ru/item.asp?id=43004721.
- Гречаный С. А. Распознавание лиц в современных системах видеонаблюдения на примере оборудования ТМ / С.А. Гречаный, Н.Ю. Федина, М.В. Храмыков // Охрана, безопасность, связь. №5-1. – 2020. – С. 63-68. – https://elibrary.ru/item.asp?id=43050522&.
- Останина Е. А. О некоторых аспектах технологии распознавания лиц // Человеческий капитал. – №5 (137). – 2020. – С. 142-152. – https://elibrary.ru/item.asp?id=42661637.
- Тагиров Т. Р. Система учета контроля посещения помещений // Молодежный вестник Уфимского государственного авиационного технического университета. – №2 (23). – 2020. – С. 124-126. – https://elibrary.ru/item.asp?id=42965587.
- Катыс П. Г. Обработка изображений в системах распознавания лиц // Современная наука: актуальные проблемы теории и практики. Серия: естественные и технические науки. – №1. – 2020. – С. 92-95. – https://elibrary.ru/item.asp?id=42632331.
- Кряжев А. С. Исследование возможностей реализации модуля распознавания лиц для систем контроля и управления доступом. Материалы IV Международной научно-практической конференции студентов, аспирантов и молодых ученых “Фундаментальные и прикладные исследования молодых ученых”. – С. 356-360. – https://elibrary.ru/item.asp?id=42731597.
- Родишев Д. Д. Использование технологий идентификации человека по лицу для учета посещения учебных заведений. – Материалы 27-й Региональной научной студенческой конференции “Интеллектуальный потенциал Сибири”. – 2019. – С. 69-70. – https://elibrary.ru/item.asp?id=41410656.
- Ерсултанова З. П. Интеллектуальная информационная система в образовании. – Материалы VIII Международной научно- практической конференции “Современные тенденции естественно-математического образования: школа – вуз”. – 2019. – С. 49-52. – https://elibrary.ru/item.asp?id=37273922.
- Рудешко Н. А. Интеллектуальная система распознавания лиц школьников / Н.А. Рудешко, Ю.В. Дубенко. – Материалы VIII Всероссийской научной конференции молодых ученых, аспирантов и студентов “Проблемы автоматизации. региональное управление. связь и автоматика (Паруса-2019)”. – 2019. – С. 271-276. – https://elibrary.ru/item.asp?id=41879198.
- Айтбенова А. А. Интеллектуальная информационная система в образовании / А.А. Айтбенова, Г.Б. Даулетбаева // Математическое и программное обеспечение систем в промышленной и социальной сферах. – №1. – 2019. – С. 30-35. – https://elibrary.ru/item.asp?id=41602667.
- Филиппенко В. А. Обзор методов распознавания лиц в видеопотоке. Сборник научных статей 4-й международной научной конференции перспективных разработок молодых ученых “Наука молодых – будущее России”. – – С. 188-191. – https://elibrary.ru/item.asp?id=41703985.
- Рюмин Д. А. Автоматическое обнаружение лиц для человеко- машинного взаимодействия / Д.А. Рюмин, А.А. Аксёнов, А.А. Карпов. Материалы XLVIII научной и учебно-методической конференции Университета ИТМО. – 2019. – с. 33-37. – https://elibrary.ru/item.asp?id=42151824.
- Катин О. И. Исследование способов повышения быстродействия системы распознавания лиц / О.И. Катин, К.И. Горянина, Д.Ю. Донской // Научное обозрение. педагогические науки. – №3-3. – 2019. – С. 45-47. – https://elibrary.ru/item.asp?id=38506301.
- Барашко Е. Н. Новые системы поиска и распознавания лиц / Е.Н. Барашко, К.Д. Кружилин // Общество. – №2 (13). – 2019. – С. 21-23. – https://elibrary.ru/item.asp?id=39131066.
- Вай Ян Мин. Применение статистической обработки данных для повышения эффективности распознавания лиц с помощью метода главных компонент / Вай Ян Мин, Ю.П. Лисовец, Тхет Наинг Вин // Электронные информационные системы. – №2 (21). – 2019. – С. 33-42. – https://elibrary.ru/item.asp?id=38566109.
- Martins P. Gradient Shape Model / P. Martins, J.F. Henriques, J. Batista // Int J Comput Vis 128, 2828-2848 (2020). https://doi.org/10.1007/s11263-020-01341-y.
- Cevikalp H. Video Based Face Recognition by Using Discriminatively Learned Convex Models / H. Cevikalp, G.G. Dordinejad // Int J Comput Vis 128, 3000-3014 (2020). https://doi.org/10.1007/s11263-020-01356-5.
- Nakane T. Application of evolutionary and swarm optimization in computer vision: a literature survey / T. Nakane, N. Bold, H. Sun // IPSJ T Comput Vis Appl 12, 3 (2020). https://doi.org/10.1186/s41074-020-00065-9.



