Системы машинного зрения и методы решения задач видеоаналитики: от централизованного к распределенному подходу

766
views
В этой статье мы опишем два основных подхода к развертыванию систем машинного зрения для решения задач видеоаналитики: централизованный, при котором все видеоданные с камер передаются в единый дата-центр, и периферийный — вычисления производятся защищенной системой, расположенной в непосредственной близости от камер наблюдения.

Видео как источник данных

При внедрении технологий компьютерного зрения в системах видеоаналитики наиболее просто и логично использовать централизованный подход: мощный центр обработки данных (ЦОД) выступает ключевой системой сбора, хранения и обработки «сырых», необработанных видеоданных, поставляемых по каналам связи пулом относительно простых видеокамер.

На заре эпохи облачных технологий такая схема была, пожалуй, единственным способом организации системы видеоаналитики. Благодаря увеличению производительности автономных систем с одной стороны и совершенствованию алгоритмов машинного обучения с другой у разработчиков появилась возможность обсчитывать видеопотоки в непосредственной близости от источников данных (видеокамер) в реальном времени. Такую организацию облачных систем видеоаналитики называют оперативной, периферийной, децентрализованной или, используя кальку с английского, «на краю» (Edge).

У обоих подходов — Cloud и Edge — есть свои преимущества, равно как и специфические ограничения (табл.). Определение верного подхода для решения прикладных задач еще на стадии разработки системы видеоаналитики позволяет получить максимальную отдачу от инвестиций, а также создать правильную инфраструктуру для дальнейшего масштабирования системы по мере ее развития.

ТАБЛИЦА. КЛЮЧЕВЫЕ РАЗЛИЧИЯ СИСТЕМ ВИДЕОАНАЛИТИКИ ПО МОДЕЛИ CLOUD И EDGE

Cистема видеоаналитики Централизованная (Cloud) Децентрализованная (Edge)
Инфраструктура Простая камера (камеры) + ЦОД Простая камера (камеры) + сервер рядом с камерами
Требования к каналам связи Высокая пропускная способность. Высокие требования к стабильности и качеству Невысокие требования к постоянному присутствию онлайн. Задержки и своевременность доставки контента некритичны
Устойчивость к сбоям каналов связи Риски потери данных при сбое канала связи Некритично к сбоям канала связи. Допустимо кэширование данных на периферийном сервере
Стоимость ЦОД. Аренда ОРЕХ Аренда более дорогих серверов Аренда простых серверов CAPEX, покупка оборудования к камерам
Управляемость Простая. Централизованный провайдер ЦОД Необходимы квалифицированная настройка и поддержка периферийных компонентов

Зачем нужна видеоаналитика

Работа систем видеоаналитики строится на алгоритмах распознавания различных образов в кадре камеры с помощью технологий машинного обучения и искусственного интеллекта (ИИ). Компьютерное распознавание образов обеспечивает идентификацию объекта (лица человека, номерного знака автомобиля и др.) и при необходимости его последующую верификацию для борьбы с возможными подделками или мошенничеством.

В каждом случае алгоритмы находят и выделяют ряд характерных опорных точек объекта, который они настроены распознавать. Так, при идентификации лиц они работают с рядом антропометрических точек, определяющих индивидуальность (глаза, нос, рот, расстояния между ними, контур лица и др.), а в составе транспортных систем анализируют силуэты автомобилей, очертания пластин регистрационных знаков и состояние дорожного покрытия.

Полученный в результате первичной обработки массив точек трансформируется в массив чисел и просчитывается в математическую модель (цифровой шаблон), которую в случае работы с лицами также называют биометрической моделью.

Такой цифровой шаблон можно сравнивать с другими образцами, накопленными в базе данных, и делать выводы о полном или частичном совпадении либо соответствии заявленным критериям поиска.

Для анализа видео в последние годы все чаще используются технологии многослойных нейронных сетей, максимально эффективных при распознавании образов. С помощью алгоритмов оптимизации на достаточном объеме размеченных данных такая сеть «тренируется» разработчиком и нарабатывает иерархический набор абстрактных признаков, необходимых для выполнения поставленных перед ней задач распознавания.

В отличие от классических математических алгоритмов распознавания, ИИ на базе сверхточных нейронных сетей менее восприимчив к изменению внешних условий и поведению объектов в кадре. Это обеспечивает высокое качество распознавания в широком диапазоне освещенности при разных углах обзора, что, в свою очередь, снижает требования к качеству камер и их монтажу и в итоге ведет к снижению себестоимости системы.

Алгоритм видеоаналитики — секретное «ноу-хау» каждого разработчика. Существуют международные соревнования на лучший алгоритм, где критериями, определяющими рентабельность и конкурентоспособность решения, являются быстродействие, точность распознавания и стоимость внедрения.

Развитие технологий ИИ также привело к появлению аппаратных решений, способных ускорить работу алгоритмов машинного обучения во множество раз. Наглядный пример — функции распознавания образов и обработки видео, которые сегодня встраивают даже в смартфоны. По мере дальнейшего совершенствования алгоритмов ИИ системы видеоаналитики все реже нуждаются в мощном дорогостоящем оборудовании, меньше привязаны к ЦОД и без проблем встраиваются в бизнес-процессы, в рамках которых нужно выполнять широкий круг прикладных задач.

Сферы применения видеоаналитики

Цифровая (биометрическая) модель отличается от обычной картинки обезличенностью «сухих» цифр, преобразованных из последовательности кадров (видеопотока). Воссоздать исходное изображение из такого шаблона уже невозможно, зато его можно использовать для бизнеса и нужд социальных сервисов без риска разглашения персональных данных.

Современная видеоаналитика применяется в ситуациях, когда есть необходимость в автоматизации процессов с исключением человеческого фактора. Компьютерное зрение не спит, не отвлекается и не моргает. Оно позволяет в значительной степени снизить риск подмены реального лица фотографией или несанкционированного доступа с чужим пропуском.

Все чаще видеоаналитика используется в системах контроля и управления доступом (СКУД), где применимы технологии распознавания и при этом нежелательно определение биометрии с прямым контактом пользователя (отпечаток ладони или пальца). Например, при идентификации сотрудников на проходной, учете рабочего времени или оплате обедов в столовой, в системах оплаты проезда в транспорте (с помощью распознавания лица) или покупок в магазине.

Подобные технологии применяются в банковском секторе для биометрической идентификации клиентов, а также внедряются на вокзалах и в аэропортах для обеспечения паспортного контроля.

Компьютерное зрение несложно интегрировать с контрольно-пропускной системой образовательных учреждений для идентификации студентов и преподавателей и с кодовыми замками подъездов многоквартирных домов для доступа жильцов. В торговом зале магазина ситуационная видеоаналитика может помочь не только с обнаружением попыток краж, но и с подсчетом довольных (и недовольных) покупателей на выходе.

Централизованный подход

При внедрении систем видеоаналитики на базе технологий компьютерного зрения прежде всего нужно учитывать, что речь идет о работе с «тяжелыми» потоками видео, для передачи которых требуются коммуникации с хорошей пропускной способностью, а для обработки — достаточно мощная аппаратная платформа.

С точки зрения эффективности централизованная платформа на базе дата-центра выполняет вычисления с применением технологий нейронных сетей значительно быстрее и дешевле, чем периферийные решения. Одно из сильнейших преимуществ централизованной облачной видеоаналитики — возможность масштабирования вычислительных мощностей по требованию, в момент пиковых нагрузок на систему.

Масштабирование сервисов видео­аналитики в условиях централизованной инфраструктуры также упрощается за счет большего выбора устройств и стандартизированной аппаратной базы.

Видеокамерам и другим датчикам, установленным «в поле», для сбора и передачи данных в единый ЦОД в любом случае требуется наличие аппаратной инфраструктуры. Однако в случае централизованной обработки данных технические требования к такой обвязке минимальны и, следовательно, стоимость таких решений невысока по сравнению с Edge-комплексами.

Наглядным примером реализации централизованной масштабной системы видеоаналитики является комплекс из сотен камер фотовидеофиксации, принадлежащих Центру организации дорожного движения (ЦОДД) правительства Москвы. Эти камеры подключаются к единому ЦОД для распознавания номерных знаков автомобилей, а также пресечения и профилактики правонарушений в транспорте.

ЦОДД использует полученные данные для дорожной аналитики, с помощью которой ежедневно обрабатывается более 50 млн проездов. Аналитические данные позволяют прогнозировать загруженность дорог, выявлять проблемы и формировать оптимальные схемы транспортного движения.

Внедрение решений с централизованной видеоаналитикой особенно целесообразно на объектах с критичной важностью точной обработки данных, где цена ошибки очень высока. Централизованный сбор данных также оправдан на важных инфраструктурных объектах, таких как тоннели, мосты и ключевые транспортные развязки. В таких случаях крупные инвестиции в проект полностью оправданы, ибо ценой ошибки в таких случаях могут стать значительные экономические потери или даже человеческая жизнь.

Существенным минусом централизованной видеоаналитики является отсутствие возможности обработки данных в реальном времени. Там, где требуется мгновенное реагирование, необходимы системы компьютерного зрения с минимальными задержками на принятие решений — например, для оснащения производственных роботов, автономных автомобилей, пропускных систем с биометрической аутентификацией.

Децентрализованный подход

Любое централизованное облачное решение нуждается в надежной инфраструктуре и стабильных производительных каналах связи для обмена информацией между устройствами сбора данных и ЦОД. Системам компьютерного зрения всегда приходится иметь дело с «тяжелыми» потоками видео, поэтому полная или частичная обработка таких данных «на краю» позволяет развертывать эффективные решения даже при полном отсутствии сетевой инфраструктуры.

Кроме того, даже при наличии коммуникаций использование периферийных вычислений позволяет не «засорять эфир» пересылкой гигабайт информации, которая может быть обработана локально с большей эффективностью. На фоне растущих с каждым годом объемов информационного трафика переход к Edge-вычислениям или гибридным архитектурам систем компьютерного зрения является трендом с большими перспективами.

Еще один плюс периферийных вычислений — высокая безопасность и приватность хранения данных. В большинстве сценариев вычислений «на краю» обработка видеопотоков происходит в реальном времени, без накопления или с небольшим буферированием данных. В результате в облако и ЦОД поступают агрегированные или полностью обезличенные данные, что автоматически снимает вопрос безопасности при работе с персональной информацией. Чем ближе вычисления к источнику данных, тем меньше итераций проходит информация и тем ниже риск взлома такой системы.

Наконец, во многих случаях в промышленности и на транспорте крайне важна скорость принятия решения, которая порой измеряется долями секунды. Никто не будет устанавливать систему принятия решений самолета в удаленном ЦОД. По этой же причине система дорожной развязки на светофоре будет гораздо эффективнее обрабатывать данные «на краю» и принимать решения без задержек на передачу информации и ожидание управляющего сигнала из единого ЦОД.

Технологии периферийных вычислений не стоят на месте и постоянно эволюционируют. Например, в последнее время набирает популярность методика так называемых «перехватывающих серверов». Этот подход можно назвать промежуточным решением между централизованным и децентрализованным подходами: в непосредственной близости от камер видеонаблюдения ставится достаточно мощная система, вплоть до нескольких многоядерных серверных процессоров класса Intel Xeon.

По сути, такой подход полностью снимает вопрос передачи «сырых» данных на удаленный ЦОД, поскольку полноценная обработка и аналитика данных производится на месте.

«Перехватывающий» подход при очевидной экономии на производительных и надежных (то есть дорогих) каналах связи не лишен собственных минусов. Прежде всего, это значительное увеличение капитальных затрат на приобретение дорогостоящего оборудования, которое, как правило, должно обладать недешевой антивандальной защитой, а в условиях производства или уличного монтажа — защитой от пыли, влаги, вибраций и других внешних факторов.

Кроме того, мощный сервер — не лучшее решение для работы от батарей. Поэтому применение таких систем «на периферии» не всегда оправдано из соображений мобильности и автономности, особенно в транспорте.

Оперативная объектная видеоаналитика на транспорте — наглядный пример необходимости проведения вычислений «на краю», в непосредственной близости от места установки видеокамер. Такую систему уже внедряет системный интегратор ComBox Technology в автобусах транспортной компании «Третий парк» из г. Санкт-Петербурга.

Бортовая система видеоаналитики используется для подсчета пассажиров автобуса, оценки числа проданных билетов, сбора статистики по загруженности маршрута на различных отрезках пути и в разное время суток. Эта же система может производить мониторинг поведения водителя — например, детектировать попытки закурить или разговаривать по телефону за рулем.

Система AAEON VPC-3350SРис. 1. Система AAEON VPC-3350S

Оперативная обработка данных с видеокамер автобуса осуществляется с помощью компактного промышленного бортового компьютера из семейства Intel NUC, которое в настоящее время представлено широким спектром решений с различной степенью производительности, пыле-, влаго- и антивандальной защиты. В компании ComBox, в частности, используют ПК VPC-3350S производства AAEON (рис. 1). Доступны варианты системы с процессорами Intel Atom, Celeron и Core, в том числе с интегрированной графикой HD Graphics, которая позволяет использовать аппаратное ускорение для обработки видеопотоков. Компьютер не нуждается в дополнительном коммутаторе, поскольку оснащен множеством портов LAN для непосредственного подключения видеокамер. Система сохраняет работоспособность в диапазоне температур –20…+70 °C. В зависимости от поставленных задач VPC-3350S может комплектоваться модулем сотовой связи Cat 4 LTE с интегрированным приемником GPS/ГЛОНАСС или USB-сопроцессором Intel Myriad X на базе вычислительных модулей Movidius для ускорения работы нейро­сетей (рис. 2).

Архитектура процессора машинного зрения (vision processing unit, VPU) Intel MovidiusРис. 2. Архитектура процессора машинного зрения (vision processing unit, VPU) Intel Movidius

Решения класса Intel Myriad X на базе вычислительных модулей Movidius обеспечивают высокую производительность технологий ИИ при низком энергопотреблении.

В режиме штатной эксплуатации бортовая система регистрирует события в базе данных с сохранением фотографии и номера камеры, указанием даты, времени, разновидности и продолжительности инцидента в секундах. Для определенных случаев могут записываться дополнительные данные, например номерные знаки транспорта в случае мониторинга дорожных инцидентов.

При наличии доступа к сотовой сети 3G/LTE собранные данные передаются в ЦОД транспортной компании. Для таких коммуникаций не нужен постоянный канал связи с большой пропускной способностью. Даже в случае длительного отсутствия такой связи ничего критичного не произойдет. Вся остальная информация из бортовой базы данных может быть выгружена по окончании смены.

Решения ComBox на базе нейронных сетей применимы в широком спектре промышленных приложений сегментов B2B/B2G. Подобные системы с небольшими модификациями можно стационарно установить на транспорте, а также использовать для поиска угнанного автомобиля по заданным параметрам, оптимизации маршрута, управления транспортными потоками, прогнозирования грузоперевозок и дорожной ситуации, фиксации аварийных ситуаций на дорогах.

Дополнительным плюсом такой организации периферийных вычислений является простота модификации и масштабирования системы — например, в случае необходимости обновления программной части, добавления дополнительных независимых сенсоров или видеокамер (рис. 3). Оборудование оптимально интегрируется с аппаратной частью автобуса и не требует серьезных эксплуатационных затрат на поддержание канала мобильной связи для передачи видеоданных в ЦОД.

Система AAEON VPC-3350S изнутри с установленным климатическим модулем, сопроцессором Intel Movidius VPU, интерфейсом 3G/LTE и акселерометром

Рис. 3. Система AAEON VPC-3350S изнутри с установленным климатическим модулем, сопроцессором Intel Movidius VPU, интерфейсом 3G/LTE и акселерометром

По сравнению с централизованной инфраструктурой подобные системы оперативной видеоаналитики требуют значительно больших начальных инвестиций — особенно на закупку аппаратных решений, предназначенных для эксплуатации в индустриальных условиях. Иногда для снижения себестоимости проекта интеграторы используют неиндустриальные решения с климатическими модулями. Помимо этого, сложное оборудование для вычислений «на краю» имеет больше точек отказа и более требовательно в части обслуживания.

В качестве примера децентрализованной системы видеоаналитики также можно привести решение промышленного гиганта «СИБУР», где системы камер машинного зрения, образующие стереопары, применяются в системе управления доступом для распознавания лиц при идентификации сотрудников и посетителей офиса. Технология базируется на принципе оптического распознавания биометрических данных с помощью нейросетевых алгоритмов.

Система обеспечивает высокий уровень быстродействия и защиты от спуфинга (англ. spoofing — подмена), а также допускает интеграцию с другими системами доступа, например с терминалами самостоятельной регистрации посетителей.

Впрочем, в масштабах крупной нефтегазохимической компании технологии компьютерного зрения применяются в самом широком спектре прикладных решений для разных задач: от распознавания работников в цехах и контроля за соблюдением техники безопасности до контроля выходного качества продукции и мониторинга опасных участков — например, на предмет разлива жидкостей.

Другой пример — платформа интеллектуальной автономной видео­аналитики компании Edge Vision. Практически полностью автономное решение компании — видеокамера плюс «черный ящик» в защищенном индустриальном исполнении — не нуждается в дорогостоящей серверной инфраструктуре с графическими адаптерами и скоростном подключении к Интернету.

Системы видеоаналитики Edge Vision подходят для адаптируемой аналитики визуальных данных с возможностью обнаруживать, классифицировать и вести подсчет объектов дорожного движения в реальном времени с разбивкой по типу (грузовики, легковые автомобили, автобусы) и средней скорости движения. Они также используются для контроля безопасности на пересечении автодорог с железнодорожными путями и обнаружения происшествий, обеспечения безопасности автомобилей и пешеходов, мониторинга неизвестных объектов на путях. Компания внедрила более сотни систем в таких областях, как интеллектуальные светофоры и парковки, комплексный анализ дорожных инцидентов и автокатастроф.

Ближайшие перспективы

Совершенно новые горизонты применения децентрализованной видеоаналитики открываются с наступлением эры сотовых сетей пятого поколения (5G). Помимо высоких скоростей, такие беспроводные сети обеспечивают малые задержки сигнала и надежный обмен данными даже в местах скопления большого числа абонентов или датчиков. Кроме того, сети 5G работают с различными вспомогательными протоколами (например, для «Интернета вещей» или передачи данных между автомобилями), и список поддерживаемых ими спецификаций постоянно растет.

Для граничных вычислений, развиваемых в мобильных сетях, существует отдельный термин “MEC” (Mobile Edge Computing). По мере развития технологий к нему также добавился термин “Multi-Access Edge Computing”, которым описываются граничные вычисления со множественным доступом, при использовании которых ресурсы для хранения данных и выполнения вычислений располагаются в непосредственной близости к конечным пользователям.

Сегодня на рынке достаточно операторов дата-центров, которые предлагают готовую услугу видео­аналитики — как минимум, в базовом варианте, вроде «подсчета количества машин в кадре за определенное время». В перспективе также не исключено появление готовых услуг видео­аналитики «на краю» — например, в виде готового операторского предложения «из коробки», где, по аналогии с популярными сегодня сервисами видеонаблюдения или потокового телевидения, пользователь получает в аренду решение на базе технологий компьютерного зрения с готовой видеоаналитикой на выходе.

Согласно прогнозам исследований Intel, IDC и Gartner, в ближайшие три года скорость внедрения ИИ-компонентов для периферийных вычислений будет на 25–35% больше, чем в дата-центрах (рис. 4).

Внедрение аппаратных ИИ-решений для периферийных вычислений и ЦОДРис. 4. Внедрение аппаратных ИИ-решений для периферийных вычислений и ЦОД

Дальнейшее развитие технологий распределенных облачных вычислений и совершенствование провайдерами своих сервисных моделей позволяет выйти далеко за рамки традиционных услуг связи, открывая новые возможности на стыке технологий. Сочетание машинного обучения с периферийными вычислениями и сетями 5G в перспективе откроют такие возможности в производстве, транспорте, развлекательной индустрии и многих других отраслях.

Согласно прогнозу аналитиков Gartner, уже к 2023 г. сети 5G будут обеспечивать порядка одной пятой глобального трафика мобильных данных, из которых примерно 25% будет связано с периферийными вычислениями. Ожидается, что новыми потенциальными источниками дохода от внедрения сетей 5G станут корпоративные услуги и услуги «Интернета вещей», многие из которых будут основаны на граничных вычислениях с использованием ИИ.

Таким образом, уже в недалеком будущем периферийные вычисления станут неотъемлемой частью инфраструктуры 5G для любого поставщика услуг. Согласно прогнозу Gartner, уже к 2029 г. корпоративные инфраструктуры будут работать с более чем 15 млрд камер, сенсоров и других IoT-датчиков.

Аналитики International Data Corporation (IDC) называют облачные и граничные вычисления «новой нормой» постковидной реальности. По их мнению, именно воздействие пандемии COVID-19 стало ключевым фактором, который подстегнул мировую экономику к скорейшей цифровизации, поскольку большинство современных продуктов и услуг основаны на цифровой модели доставки или требуют перехода «в цифру» для сохранения конкурентоспособности.

По прогнозу IDC, уже к 2022 г. до 65% мирового ВВП будет переведено на цифровые технологии. А к 2023 г. облачная экосистема станет основой развития любых инициатив в области автоматизации бизнеса, что потребует тесной интеграции облака с упреждающей аналитикой на базе ИИ и машинного обучения.

Edge-вычисления в IDC называют «главным приоритетом» развития ИТ-отрасли на 2021-й год. Ожидается, что к 2023 г. до 80% инвестиций, вложенных в изменение бизнес-моделей в большинстве отраслей, будет направлено на периферийно-ориентированные вычисления. В свою очередь вопросы обеспечения инфраструктуры, доставки приложений и данных на периферию станут стимулом для внедрения новых периферийных и сетевых облачных решений, которые, в свою очередь, послужат основой для дальнейшего масштабирования и повышения устойчивости бизнеса.

Авторы: Владимир Слинько, Алексей Мяков
Источник: https://controleng.ru/