Машинное зрение на основе искусственного интеллекта: взгляд в будущее

18.02.2026

839

views

Машинное зрение (МЗ) преобразует многие отрасли, предоставляя машинам возможность понимать то, что они «видят», и реагировать без вмешательства человека. В этом обзоре собраны последние достижения в области глубокого обучения (ГО), обработки изображений и компьютерного зрения (КЗ). Основное внимание уделяется применению этих технологий в реальных операционных условиях. Мы рассматриваем основные методологии, такие как извлечение признаков, обнаружение объектов, сегментация изображений и распознавание образов.

Эти методы ускоряют инновации в ключевых секторах, включая здравоохранение, производство, автономные системы и безопасность. Особое внимание уделяется углублению интеграции искусственного интеллекта (ИИ) и машинного обучения (МО) в МЗ. В частности, мы рассматриваем влияние сверточных нейронных сетей (CNN), генеративно-состязательных сетей (GAN) и трансформерных архитектур на эволюцию возможностей визуального распознавания.

Помимо обзора достижений, в этом обзоре также подробно рассматриваются постоянные препятствия в этой области, прежде всего, дефицит высококачественных размеченных данных, высокая вычислительная нагрузка современных моделей и жесткие временные ограничения, накладываемые приложениями компьютерного зрения в реальном времени.

В ответ на эти вызовы мы рассматриваем ряд новых решений: более эффективные алгоритмы, специализированное оборудование (например, блоки обработки изображений и нейроморфные чипы) и более интеллектуальные способы маркировки или синтеза данных, позволяющие избежать необходимости в масштабных ручных операциях.

Однако отличительной чертой этой статьи является акцент на будущем развитии машинного зрения. Мы освещаем новые направления, включая обработку на периферии сети, приближающую интеллект к сенсору, ранние исследования квантовых методов для визуальных задач и гибридные системы искусственного интеллекта, объединяющие символическое рассуждение с глубоким обучением, не как спекулятивные сценарии будущего, а как ощутимые пути развития, уже формирующиеся. В конечном итоге, цель состоит в том, чтобы связать передовые исследования с реальными сценариями внедрения, предложив обоснованное и практическое руководство для тех, кто сегодня работает на передовой машинного зрения.

1. Введение

Корни машинного зрения (МЗ) лежат в конце 1940-х и начале 1950-х годов, когда начались первые исследования в области искусственного интеллекта (ИИ) и анализа изображений. Большая часть этой фундаментальной работы была обусловлена военными целями США [1]. Практическое применение начало появляться в 1960-х годах. Значительный прорыв произошел в 1970-х годах, когда исследователи Массачусетского технологического института (MIT) создали систему обработки изображений, способную управлять роботизированной рукой. К 1980-м годам повышение эффективности алгоритмов позволило впервые внедрить МЗ в промышленном масштабе [2].

В эту эпоху также были внедрены ключевые методы, такие как фотостереоскопия, определение формы по затенению и определение формы по фокусу. Эти методы улучшили интерпретацию изображений, используя вариации освещения и информацию о глубине [1]. 1990-е годы ознаменовались еще одним крупным прорывом с появлением технологии интегральных схем. Это нововведение позволило создать интеллектуальные камеры, способные самостоятельно выполнять обработку изображений [3, 4, 5].

Одновременно с этим вычислительная теория зрения Дэвида Марра заложила основу для понимания преобразования визуальных входных данных в осмысленные представления посредством вычислений, алгоритмов и аппаратного обеспечения [ 6 ]. В XXI веке достижения в области обнаружения границ, стереоскопического зрения и 3D-моделирования значительно повысили возможности систем визуального контроля, укрепив их роль в современном производстве, особенно для высокоточных задач, таких как контроль качества, выявление дефектов и автоматизированная визуальная проверка [ 1 ].

Сегодня МВ выступает катализатором трансформации во многих областях, от промышленной автоматизации и здравоохранения до инфраструктуры безопасности и автономной мобильности [7, 8, 9]. Его сила заключается в преобразовании необработанных пикселей в значимые, действенные данные, тем самым повышая операционную эффективность, согласованность измерений и надежность решений в сложных реальных условиях.

Эта растущая зависимость обусловлена явным преимуществом МВ над человеческим зрением: оно не устает, не «дрейфует» (не становится размытым и не теряет резкости) и работает со скоростью и точностью, которые просто недостижимы вручную. Эти качества сделали его незаменимым в современном технологически развитом мире [10]. В производстве и контроле качества МВ незаменим: автоматизированные системы контроля, интегрирующие камеры высокого разрешения с интеллектуальными алгоритмами, надежно выявляют дефекты, проверяют геометрические характеристики и поддерживают однородность продукции на уровнях, недостижимых ручными методами [11].

В отличие от этого, человеческий контроль по своей природе подвержен усталости и изменчивости, тогда как системы MV работают непрерывно с незначительным дрейфом. Роботизированные сборочные линии дополнительно используют MV для пространственной обратной связи в реальном времени, повышая производительность и снижая эксплуатационные расходы [12].

Сектор здравоохранения претерпел глубокие изменения благодаря интеграции машинного зрения в медицинскую визуализацию, диагностический скрининг и роботизированную хирургию [13, 14, 15]. Модели машинного зрения на основе глубокого обучения теперь регулярно интерпретируют рентгеновские снимки, МРТ и КТ-сканы, что позволяет проводить раннюю диагностику таких заболеваний, как рак и диабетическая ретинопатия [16].

Благодаря автоматическому мониторингу гистопатологических рабочих процессов машинное зрение снижает диагностическую неопределенность и способствует улучшению клинических результатов. Хирургические роботы, в свою очередь, полагаются на системы машинного зрения в реальном времени для управления малоинвазивными вмешательствами с исключительной точностью [17].

В автономном вождении MV служит основополагающим методом восприятия, позволяющим транспортным средствам надежно интерпретировать сложные условия окружающей среды [18]. Системы MV, дополненные такими датчиками, как LiDAR, инфракрасные камеры и радар, выполняют основные задачи, включая обнаружение объектов, отслеживание полосы движения, идентификацию пешеходов и предотвращение столкновений [19].

В сочетании с алгоритмами глубокого обучения эти системы поддерживают мгновенные решения о вождении, способствуя более безопасной и эффективной мобильности. Одновременно с этим, возросшие требования к безопасности привели к быстрому внедрению MV в системах видеонаблюдения [20].

Современные платформы безопасности на основе машинного зрения используют распознавание лиц, обнаружение аномалий и анализ поведения толпы для повышения общественной безопасности и поддержки правоохранительных органов [21]. В приложениях безопасности системы машинного зрения на основе ИИ могут обнаруживать потенциальные угрозы по мере их развития, предлагая оповещения в режиме реального времени, которые помогают как в превентивных мерах, так и в криминалистическом анализе после инцидента [22]. Однако, несмотря на весь этот прогресс, сохраняются значительные препятствия.

Главным из них является сильная зависимость от огромных, размеченных вручную наборов данных для обучения моделей глубокого обучения. Это требование затрудняет масштабируемость и ограничивает возможности обобщения систем за пределами условий обучения. Кроме того, анализ изображений высокого разрешения в реальном времени требует значительной вычислительной мощности, что часто исключает развертывание на легковесных периферийных платформах. Не менее актуальной является необходимость повышения устойчивости: существующие модели остаются уязвимыми к враждебным воздействиям и могут давать сбои при повседневных изменениях освещения, погоды или композиции сцены [23].

В отчете «MV для промышленности и автоматизации 2021» компания Yole Development оценила, что CMOS-датчики изображения (CIS) составляют более 86% рынка промышленных камер [24]. Интеграция передовых методов визуализации, таких как трехмерная (3D) технология и мультиспектральная визуализация, расширила применение MV в различных отраслях промышленности (Рисунок 1). Эта технологическая диверсификация повышает точность производства в потребительской электронике и автомобильной промышленности, тем самым увеличивая спрос на решения MV. Более того, глобальные достижения в промышленности, включая инициативы «Индустрия 4.0», ускоряют процессы автоматизации и еще больше способствуют развитию технологий MV [ 25 ].

Рисунок 1. Прогноз рынка промышленных и автоматизированных камер по областям применения [24].

Разработка систем машинного зрения больше не ограничивается достижениями в алгоритмах компьютерного зрения или разработке программного обеспечения. Наиболее впечатляющие успехи достигаются на стыке машинного зрения с такими областями, как материаловедение, фотоника и робототехника. Например, исследователи сейчас используют метаповерхности (МП) и дифракционные оптические элементы (ДОЭ) для создания компактных, высокоспециализированных датчиков, способных реагировать на определенные длины волн света.

В то же время интеграция машинного зрения с мягкой робототехникой и микроэлектромеханическими системами (МЭМС) открывает новые возможности для разработки адаптивных и гибких систем машинного зрения. Такие системы могут надежно функционировать даже в непредсказуемой или неструктурированной среде.

Эти междисциплинарные усилия могут привести к созданию интеллектуальных, реконфигурируемых платформ, способных корректировать свои оптические и вычислительные параметры в режиме реального времени. Такой возможности просто не существовало в предыдущих поколениях технологий машинного зрения. По мере роста промышленного спроса на более портативные, точные и универсальные решения в области машинного зрения, ожидается, что это направление исследований будет привлекать все больше внимания и инвестиций.

Один из наиболее перспективных путей развития машинного зрения заключается в его конвергенции с нейроморфными вычислениями, областью, смоделированной по архитектуре и функциям человеческого мозга [26]. В отличие от традиционных цифровых процессоров, нейроморфные чипы, такие как Loihi от Intel и TrueNorth от IBM, используют импульсные нейронные сети (SNN), имитирующие поведение биологических нейронов.

Такой подход обеспечивает обработку визуальной информации, которая не только быстрее и адаптивнее, но и значительно энергоэффективнее. Такие возможности особенно ценны для приложений машинного зрения в условиях ограниченных ресурсов, включая периферийные устройства, автономную робототехнику и интеллектуальные системы видеонаблюдения. Нейроморфные датчики зрения, такие как камеры, работающие на основе событий, улучшают этот подход, регистрируя только динамические изменения в сцене, что снижает вычислительные затраты и повышает скорость отклика.

Слияние нейроморфных вычислений с машинным зрением не только улучшает анализ изображений с низким энергопотреблением и высокой скоростью, но и открывает путь для самообучающихся систем зрения, способных адаптироваться в реальном времени к непредсказуемым условиям. Это представляет собой важную веху для автоматизации следующего поколения на основе ИИ [27].

В отличие от классических компьютеров, которые обрабатывают данные в бинарных состояниях (0 и 1), квантовые компьютеры используют квантовую суперпозицию и запутанность для выполнения сложных вычислений экспоненциально быстрее [28]. Этот сдвиг парадигмы может позволить МВ обрабатывать многомерные данные изображений в реальном времени, улучшая распознавание объектов, обнаружение образов и идентификацию аномалий сверх существующих возможностей.

Квантовые алгоритмы, такие как квантово-усиленные преобразования Фурье и поиск Гровера, обладают потенциалом для революционизации обнаружения границ и фильтрации шума в приложениях МВ, делая их более устойчивыми к искажениям и перекрытиям. Кроме того, квантовые датчики могут улучшить визуализацию в сложных условиях, таких как медицинская диагностика и автономная навигация в условиях низкой видимости [29]. Хотя квантовые вычисления для МВ все еще находятся на ранних стадиях, их интеграция с моделями ИИ и глубокого обучения призвана изменить будущее визуального восприятия, обеспечивая более быстрые, эффективные и ранее недостижимые возможности МВ.

Траектория развития машинного зрения указывает на существенные достижения, обусловленные как быстрой технологической эволюцией, так и расширением его влияния в промышленных и научных областях. Одна из очевидных тенденций — более тесная связь ИИ и глубокого обучения с конвейерами обработки изображений, что позволяет системам решать сложные аналитические задачи, требуя при этом гораздо меньше размеченных данных, чем раньше. Это, в свою очередь, повышает их гибкость и эффективность.

В то же время, трехмерное зрение набирает обороты, отчасти потому, что оборудование для стереоскопического зрения стало значительно доступнее; эти возможности позволяют машинам воспринимать глубину и пространственное расположение с гораздо большей точностью, чем традиционные двухмерные подходы [30].

Еще одним ключевым направлением является переход к обработке на периферии сети. Вместо отправки каждого кадра на удаленный сервер, все больше систем теперь обрабатывают анализ непосредственно там, где были получены изображения, например, на камерах, роботах или встроенных устройствах. Это не только значительно сокращает задержку, но и снижает нагрузку на пропускную способность сети и повышает безопасность данных.

Практические результаты уже видны: например, в автомобильной промышленности диагностические инструменты на базе микроволн теперь могут обнаруживать множество механических или электрических неисправностей за считанные секунды, превращая трудоемкую ручную проверку в практически мгновенную автоматизированную оценку.

В клинической практике такие инновации, как цифровые хирургические лупы, обеспечивают хирургам улучшенную четкость изображения наряду с видеосъемкой в реальном времени, повышая как точность во время операции, так и качество обучения после процедуры. В совокупности эти достижения подчеркивают растущую роль микроволн как ключевой технологии. Она постоянно расширяет границы того, что машины могут воспринимать, интерпретировать и обрабатывать в широком спектре применений.

Интеграция ИИ в визуальную визуализацию значительно повысила точность и надежность анализа визуальных данных [31]. Для достижения этой цели системы визуальной визуализации используют разнообразные алгоритмы, каждый из которых предназначен для извлечения определенных типов информации из изображений. Например, методы обнаружения границ, такие как Кэнни и Собеля, необходимы для идентификации границ объектов.

Распознавание образов и сопоставление шаблонов обычно используются для обнаружения и классификации определенных форм или объектов. Методы извлечения признаков, такие как масштабно-инвариантное преобразование признаков (SIFT) [32] и ускоренные надежные признаки (SURF) [33], позволяют системам определять местоположение отличительных ключевых точек даже при изменяющихся условиях освещения или изменении точки обзора. Между тем, алгоритмы оптического потока анализируют движение между последовательными кадрами, поддерживая критически важные функции, такие как отслеживание объектов и навигация в автономных системах.

Алгоритмы глубокого обучения (DL), в частности сверточные нейронные сети (CNN) [34], произвели революцию в визуальной визуализации, обеспечив расширенную классификацию изображений, сегментацию и обнаружение аномалий с высокой точностью. Эти разнообразные алгоритмы в совокупности обеспечивают работу современных приложений визуальной визуализации в различных отраслях. Это слияние ИИ и МВ революционизирует автоматизацию и расширяет границы возможного в визуальном восприятии [35]. На рисунке 2 обобщены характеристики, области применения, преимущества и недостатки МВ, а также роль ИИ в МВ.

Рисунок 2. Характеристики, области применения, преимущества и недостатки MV, а также роль ИИ в MV.

Чтобы обзор отражал современное состояние машинного зрения, мы использовали структурированный процесс поиска и отбора литературы. Релевантные публикации были выявлены в основных базах данных, включая Web of Science, Scopus, IEEE Xplore, PubMed и Google Scholar, за период с 2010 по 2025 год, при этом более ранние ключевые работы были включены там, где они имели историческое значение. Поисковые запросы объединяли такие термины, как «машинное зрение» ИЛИ «компьютерное зрение», с областями применения (производство, здравоохранение, автономные транспортные средства, сельское хозяйство, наблюдение) и вспомогательными технологиями (объяснимый ИИ, нейроморфный, импульсный, событийный, периферийный, встроенный, квантовый, эталонный, набор данных).

Мы включили в обзор статьи, опубликованные в рецензируемых журналах или материалах авторитетных конференций, представляющие методы или эталонные показатели, относящиеся к машинному зрению, или описывающие приложения в ключевых областях, таких как здравоохранение, промышленность и автономные системы. Для каждой выбранной работы мы указывали ее область применения, задачу машинного зрения, используемый набор данных или эталонный показатель, методологию (например, CNN, Transformer, SNN, квантово-гибридная архитектура) и аппаратные предположения (периферия, облако или ускорители), а также заявленные показатели производительности. Такой подход гарантировал, что сравнительные результаты и компромиссы, выделенные в последующих разделах, основаны на систематическом и прозрачном процессе обзора.

2. Основы MV

Компьютерное зрение (CV) представляет собой широкую область в рамках ИИ, которая позволяет машинам интерпретировать и анализировать визуальные данные в разнообразных и часто неструктурированных средах. Оно лежит в основе широкого спектра приложений, от распознавания лиц и дополненной реальности до медицинской визуализации [36, 37, 38, 39].

Микровизуальное моделирование (MV), напротив, является специализированной ветвью CV, адаптированной для контролируемых, специфичных для конкретных задач условий, особенно в промышленной автоматизации. В этих условиях интегрированные системы объединяют камеры, датчики, освещение и специально разработанные алгоритмы для достижения стабильных, высокоточных результатов [ 25 ].

По сути, CV обеспечивает теоретическую и алгоритмическую основу, тогда как MV преобразует эти возможности в надежные, реальные реализации. Система MV, часто называемая автоматизированной системой контроля, состоит из нескольких взаимозависимых компонентов, которые в совокупности выполняют ее операционные задачи (рис. 3). Твердое понимание этих основополагающих элементов имеет решающее значение для эффективного внедрения и оптимизации технологий MV.

Рисунок 3. Компоненты системы среднего напряжения.

2.1. Основные компоненты MV

Типичная система визуального мониторинга включает четыре основных элемента: камеры, датчики, освещение и программное обеспечение, каждый из которых играет свою роль в определении общей производительности системы. Камеры получают изображения высокого разрешения. Датчики предоставляют дополнительные данные, необходимые для контекстной интерпретации. Освещение проектируется таким образом, чтобы максимизировать контрастность и видимость объектов. Наконец, программное обеспечение выполняет анализ и интерпретацию визуальных данных для поддержки точного автоматизированного принятия решений. Эти компоненты и их взаимодействие подробно описаны в дальнейшем обсуждении.

2.1.1. Камеры

Камеры служат глазами системы, захватывая изображения объектов или окружающей среды с высоким разрешением [40]. В отличие от потребительских камер, камеры MV созданы для точности, скорости и долговечности. Они выпускаются в различных типах, таких как монохромные, цветные, инфракрасные и 3D-камеры, выбор которых зависит от потребностей приложения, например, обнаружения дефектов, считывания штрих-кодов или распознавания объектов [41, 42]. Традиционные цифровые камеры ограничены своей зависимостью от форматов изображений и видео, унаследованных от пленочной технологии, что ограничивает их способность фиксировать быстрые изменения освещения.

Чтобы преодолеть это, Хуанг и др. представили vform, массив битовых последовательностей, в котором каждый бит указывает, достигло ли накопление фотонов порогового значения [43]. Этот метод позволил точно записывать и восстанавливать яркость сцены в любой момент времени. Используя стандартные комплементарные металл-оксидные полупроводниковые (CMOS) датчики и интегральные схемы, они разработали импульсную камеру, которая работает почти в 1000 раз быстрее, чем обычные покадровые камеры [43]. По сравнению с традиционными CMOS/CCD-устройствами, которые обычно ограничены несколькими тысячами кадров в секунду, импульсная камера достигает временного разрешения на уровне микросекунд, фиксируя изменения, которые в противном случае были бы потеряны при частоте кадров в миллисекундном масштабе.

Интерпретируя vform как последовательности импульсов, подобные тем, что встречаются в биологическом зрении, исследователи создали систему MV на основе импульсной нейронной сети (SNN). Эта интеграция объединила вычислительную скорость с механизмами, вдохновленными биологией, что позволило сверхбыстро обнаруживать и отслеживать объекты со скоростью, превышающей скорость человеческого зрения [43]. Хуанг и др. назвали эту интегрированную структуру «системой сверхзрения», подчеркнув ее способность объединять высокоскоростную визуализацию с обработкой, вдохновленной нейронными сетями.

Потенциал этой технологии был продемонстрирован в двух экспериментальных установках: вспомогательной системе судейства и высокоскоростной системе слежения за целью (рис. 4 а–г [43]. В таких видах спорта, как теннис и бадминтон, точное отслеживание мяча имеет решающее значение. Традиционные системы Hawk-Eye оценивают точки удара на основе траектории, что может привести к спорам и является дорогостоящим. Используя теннисный мячомет, система непрерывной съемки на основе событий с помощью камеры Spike Camera зафиксировала точный момент удара, обеспечивая точные и надежные решения ( рис. 4 а,б).

Рисунок 4. Применение камеры Vidar и системы контроля. ( a ) Помощь судьи: камера с импульсами определяет местоположение мяча. ( b ) Последовательность приземления мяча на скорости 100 км/ч, показывающая 6 из 170 кадров с выделенным мячом и границей. ( c ) Настройка отслеживания цели: лазер попадает в определенный символ на вращающемся вентиляторе. ( d ) Вентилятор до и после попадания 64 лазерных импульсов в символ «К». ( e ) Тест распознавания SNN: нейрон правильной категории генерирует наибольшее количество импульсов. ( f ) Отслеживание нескольких объектов: ось y показывает полярный угол объектов относительно центра вентилятора, с масками SNN в реальном времени и ограничивающими рамками. ( g ) Оценка производительности: отслеживание высокоскоростного движения. 1 Маха = 340,3 м/с [ 43 ].

Второй эксперимент проверял высокоскоростное отслеживание цели с помощью вращающегося вентилятора со скоростью 2400 об/мин, на лопастях которого были прикреплены символы «P», «K» и «U». Задача заключалась в обнаружении и отслеживании движущихся объектов, распознавании и определении местоположения цели, а также прогнозировании ее движения для запуска лазера в нужный момент. Система суперзрения выполняла эту задачу в реальном времени, как показано на сравнении «до» и «после» работы вентилятора ( рис. 4d ), выходных данных импульсной последовательности (рис. 4e) и результатах плавного отслеживания нескольких объектов (рис. 4f).

Оценка производительности продемонстрировала успешное отслеживание объектов, движущихся со скоростью 30 м/с, на расстоянии 0,75 м, самолета на скорости Маха 1 на расстоянии 10 м и даже гиперзвукового объекта на скорости Маха 100 на расстоянии 1 км ( рис. 4g ) [43].

Эти результаты имеют глубокие последствия. В отличие от традиционных систем машинного зрения на основе кадров, которые восстанавливают движение посредством интерполяции или оценки траектории, импульсная камера записывает визуальные события напрямую с временной точностью порядка микросекунд. Этот подход переопределяет сами основы обработки изображений и видеосъемки, открывая двери для нового класса систем машинного зрения на основе SNN, способных оказать преобразующее воздействие в областях, начиная от высокоскоростной кинематографии и заканчивая профессиональной фотографией и иммерсивными визуальными медиа [43].

Ян и др. представили систему 3D-реконструкции, которая объединяет бинокулярные и глубинные камеры для повышения точности измерения расстояния до объекта и 3D-реконструкции (рис. 5) [44]. Система состояла из двух одинаковых цветных камер, глубинной камеры с измерением времени пролета (TOF), блока обработки изображений, блока управления мобильным роботом и самого мобильного робота.

Глубинная камера TOF, хотя и полезна для измерения расстояний, имеет низкое разрешение, что делает ее непригодной для точного планирования траектории. С другой стороны, хотя бинокулярные стереокамеры обеспечивают высокое разрешение, они сталкиваются с проблемами стереосопоставления, особенно в условиях низкой текстуры, что влияет на их общую точность.

Для решения этих проблем система интегрировала данные глубинной камеры и методы стереосопоставления для повышения точности 3D-реконструкции. Кроме того, для повышения эффективности системы использовался двухпоточный подход к обработке. Экспериментальные результаты показали, что система повышает точность 3D-реконструкции, надежно измеряет расстояния и эффективно поддерживает планирование траектории [44].

Рисунок 5. Предложенная система 3D-реконструкции [ 44 ].

2.1.2. Датчики

Датчики дополняют камеры, обнаруживая наличие, положение и движение объекта [ 45 ]. Они обеспечивают точное получение изображения, используя такие технологии, как датчики приближения, лазерные датчики и датчики времени пролета, для повышения точности данных [11]. Достижения в производстве печатных плат (PCB) привели к увеличению плотности компонентов поверхностного монтажа.

Следовательно, электронная промышленность активизировала усилия по совершенствованию протоколов контроля, все чаще прибегая к автоматизации на производственных линиях. В этом контексте машинное зрение стало краеугольным камнем обеспечения качества, напрямую поддерживая решения о прохождении/непрохождении контроля для компонентов, не соответствующих требуемым спецификациям.

Сильва и др. предложили гибридную интеллектуальную систему визуального контроля, которая объединяет методологию машинного зрения со специализированной технологией визуальных датчиков для одновременной оценки 24 дискретных компонентов и восьми резьбовых соединений [46].

Разработанная специально для повышения надежности контроля в автомобильной сборке, эта система сочетает стандартную камеру с цветным CMOS-датчиком зрения для получения изображений сборочных приспособлений в реальном времени.

Подход обеспечил высокую точность даже в сложных условиях, типичных для промышленных цехов, подтверждая его применимость в реальных условиях. Система оказалась особенно эффективной в выявлении скрытых режимов отказов, при этом оптимальные результаты были получены при использовании Vision Builder для автоматизированной проверки. Кроме того, внедрение системы в рабочий процесс обеспечения качества привело к измеримым улучшениям в процессе FMEA, в частности, к явному снижению оценок приоритета действий [46].

Сегодня решения MV используются в широком спектре отраслей промышленности, в основном для мониторинга и проверки согласованности производственных процессов. Хотя эти системы могут автоматически записывать состояния сборки и извлекать ключевые показатели производительности, их запуск и работа редко бывают простыми. Внедрение обычно включает длительные этапы настройки, включая тщательную калибровку, итеративную настройку и ручную конфигурацию. Эти шаги часто требуют глубоких знаний в предметной области.

В результате развертывание часто занимает недели или даже месяцы и остается в значительной степени зависимым от участия специалистов, что представляет собой реальное препятствие для небольших фирм или тех, кто имеет ограниченные технические ресурсы. Ситуацию усугубляет то, что большинство развертываний MV жестко привязаны к конкретным задачам, а это означает, что любое изменение в конструкции продукта, рабочей среде или параметрах процесса обычно запускает полный цикл переконфигурации или перепроектирования.

Чтобы смягчить эти узкие места, Гирекер и др. предложили цепочку процессов, основанную на моделировании, направленную на упрощение как настройки, так и ввода в эксплуатацию систем MV [47]. Предложенный метод объединил существующие алгоритмы планирования датчиков с инновационными методами генерации обучающих данных и проведения детального анализа, адаптированного к процессам сборки [47].

Системы визуального мониторинга используют различные типы датчиков для точного сбора и обработки визуальных данных. Эти датчики играют решающую роль в повышении качества изображения, обнаружении объектов, измерении расстояний и анализе материалов. Выбор датчика зависит от конкретного применения, требуемой точности и условий окружающей среды. В таблице 1 приведены основные характеристики различных типов датчиков, используемых в системах визуального мониторинга.

Таблица 1. Основные характеристики датчиков, используемых в МВ.

Тип датчика	Функция	Основные характеристики	Приложения
CMOS-датчик (комплементарный металл-оксид-полупроводник) [ 48 , 49 ]	Преобразует свет в электрические сигналы.	Низкое энергопотребление, высокая скорость обработки, экономичность	General MV, промышленная инспекция, робототехника
CCD (прибор с зарядовой связью) датчик [ 50 ]	Позволяет получать высококачественные изображения с низким уровнем шума.	Высокое качество изображения, низкий уровень шума, высокое энергопотребление	Высокоточные измерения, научная визуализация
3D-датчики (датчик времени пролета, структурированный свет, стереоскопическое зрение) [ 51 ]	Захватывает информацию о глубине для 3D-визуализации.	Измеряет расстояние до объекта, обеспечивает точное восприятие глубины.	Распознавание объектов, извлечение предметов из контейнера, распознавание жестов.
Инфракрасные (ИК) датчики [ 52 ]	Обнаруживает тепловые сигнатуры и температурные колебания.	Работает в условиях низкой освещенности, улавливает невидимые длины волн.	Ночное видение, обнаружение дефектов, наблюдение
Датчики LIDAR (Light Detection and Ranging) [ 53 , 54 , 55 ]	Измеряет расстояние с помощью отражения лазерного луча.	Высокая точность, обнаружение на больших расстояниях.	Автономные транспортные средства, картографирование местности, 3D-сканирование
Рентгеновские датчики [ 56 ]	Проникает в объекты для захвата их внутренней структуры.	Неразрушающий контроль, выявляет внутренние дефекты.	Медицинская визуализация, сканирование багажа, промышленная инспекция
Гиперспектральные датчики [ 57 ]	Осуществляет сбор данных на нескольких длинах волн.	Идентифицирует материалы, проводит анализ химического состава.	Сельское хозяйство, фармацевтический контроль, контроль качества пищевых продуктов.
Магнитные датчики [ 58 ]	Обнаруживает металлические компоненты в объектах.	Измеряет магнитные поля, обладает высокой чувствительностью.	Промышленная автоматизация, определение положения, обнаружение дефектов

2.1.3. Освещение

Освещение в MV имеет важное значение для повышения контрастности изображения, точности и обнаружения деталей [59]. Эффективный выбор освещения зависит от исследуемого материала, характеристик источника света и геометрии системы [60]. Для обеспечения стабильной работы предпочтительнее светодиодное освещение благодаря его энергоэффективности и длительному сроку службы.

Правильное направление света, интенсивность и длина волны имеют решающее значение для оптимизации четкости изображения и минимизации ошибок в анализе системы машинного зрения. Выбор правильного освещения предотвращает дефекты и повышает общую надежность системы машинного зрения. Кумар и др. исследовали влияние различных одноцветных светодиодов на MV для оценки шероховатости поверхности деталей, напечатанных на 3D-принтере [61].

Для прогнозирования значений шероховатости на основе характеристик текстуры поверхности GLCM использовалась искусственная нейронная сеть (ИНС). Прогнозируемые значения шероховатости показали сильную корреляцию с обычными значениями R_a, особенно при использовании синего освещения. Это говорит о том, что интенсивность света разных цветов влияет на распределение уровней серого, влияя на анализ текстуры.

Эксперимент, проведенный в статических условиях с использованием одного светодиодного источника, показал, что сочетание нескольких цветов светодиодов может обеспечить более равномерный контраст по всей поверхности. Расширение этого подхода путем использования нескольких источников света с различными длинами волн может дать более глубокое понимание того, как спектральные свойства освещения влияют на измерения шероховатости поверхности. В исследовании четко подчеркивается, что выбор цвета освещения не случаен, а имеет центральное значение для достижения надежной количественной оценки текстуры в приложениях МВ [61].

При проектировании систем машинного зрения освещение не является второстепенным вопросом. Это ключевой фактор, определяющий качество изображения. Различные стратегии освещения служат различным функциональным целям: одни повышают резкость краев, другие максимизируют контраст, а третьи обеспечивают равномерное освещение сложных геометрических форм.

В таблице 2 приведены основные типы освещения, обычно используемые в системах машинного зрения, а также их рабочие характеристики и типичные области применения. Помимо выбора подходящего типа освещения, инженеры также должны учитывать направление света, интенсивность и спектральный состав относительно цвета объекта. Эти факторы напрямую влияют на качество изображения и определяют, насколько эффективно система машинного зрения может захватывать интересующие объекты.

Таблица 2. Типы освещения среднего напряжения.

Тип освещения	Описание
Волоконно-оптический	Свет от галогенных, вольфрамово-галогенных или ксеноновых ламп обеспечивает яркое, регулируемое и сфокусированное освещение.
Светодиодные лампы	Широко распространены благодаря быстрому отклику, возможности импульсного или стробоскопического режима (замораживающего движение), гибким вариантам крепления, длительному сроку службы и стабильному световому потоку.
Купольные светильники	Обеспечивают всенаправленное освещение, минимизирующее блики и отражения, что делает их идеально подходящими для осмотра деталей со сложной или изогнутой геометрией.
Телецентрическое освещение	Наилучшим образом подходит для высокоточных задач, таких как обнаружение кромок и идентификация дефектов на блестящих или отражающих поверхностях, где точность измерений имеет решающее значение.
Рассеянный свет	Использует рассеивающие фильтры для смягчения освещения, обеспечивая равномерное освещение и уменьшая блики или неравномерную яркость на отражающих материалах.
Прямой свет	Обеспечивает передачу света по тому же оптическому пути, что и камера, гарантируя прямое освещение.

2.1.4. Программное обеспечение

Программное обеспечение обрабатывает захваченные изображения с использованием алгоритмов обработки изображений и методов ИИ. Оно извлекает релевантные признаки, применяет распознавание образов и принимает решения. Программное обеспечение MV включает инструменты для улучшения изображений, сегментации, обнаружения границ и классификации на основе DL [62]. Достижения в области компьютерного распознавания изображений преобразили такие отрасли, как здравоохранение, безопасность и автономные системы.

Хуанг и др. сосредоточились на повышении точности и эффективности распознавания путем усовершенствования алгоритмов обработки изображений, в частности, с помощью методов регрессии [63]. Были проанализированы различные методы регрессии и их применение в распознавании изображений, подкрепленные примерами, основанными на данных. Кроме того, в исследовании рассматривались проблемы обработки визуальных данных из неструктурированной среды на открытом воздухе.

Благодаря стандартизации гетерогенных шаблонов и извлечению релевантных признаков из объединенных данных производительность распознавания была значительно улучшена. Результаты моделирования подтвердили улучшенные возможности восприятия и идентификации в сложных условиях на открытом воздухе. Более того, автоматизированный визуальный контроль необходим в компьютерно-интегрированных производственных системах.

Хуанг и др. сравнили два подхода к разработке системы визуального контроля: традиционные алгоритмы обработки изображений и нейронные сети. Было проведено исследование для оценки их производительности [64]. Традиционные методы имели преимущество в более быстрой настройке, но нейронные сети требовали значительных усилий в подготовке данных и обучении.

Несмотря на эти накладные расходы, они неизменно превосходили традиционные алгоритмы по точности, особенно в сценариях контроля, где важны тонкие визуальные различия. Это делает нейронные сети особенно подходящими для ответственных и высокоточных приложений. В таблице 3 приведены основные различия между классической обработкой изображений и современными подходами на основе ИИ, выделены их сильные стороны и перечислены широко используемые алгоритмы для каждого из них.

Таблица 3. Алгоритмы обработки изображений и методы, основанные на искусственном интеллекте.

Характерный	Алгоритмы обработки изображений	Методы искусственного интеллекта (нейронные сети, глубокое обучение)
Подход	Обработка на основе правил и детерминированных данных	Обучение на основе данных и адаптивное обучение
Общие методы	Обнаружение границ с использованием алгоритмов Кэнни и Собеля [ 65 , 66 ] Пороговая обработка, включая метод Оцу и адаптивную пороговую обработку [ 67 , 68 ] Извлечение признаков с использованием SIFT, SURF и ORB [ 69 , 70 ] Морфологические операции, такие как эрозия и дилатация [ 71 , 72 ] Сопоставление шаблонов [ 73 , 74 ]	CNN для классификации и сегментации изображений [ 34 ] Рекуррентные нейронные сети для последовательного/временного анализа FCN для сегментации GAN для расширения данных и генерации синтетических изображений.
Время разработки	Более короткий срок службы, требует ручного проектирования элементов.	Более длительный срок, требующий обширной подготовки.
Точность	Умеренный уровень сложности, зависит от заранее определенных правил.	На более высоком уровне изучает сложные закономерности.
Гибкость	Ограниченные возможности, требуется ручная настройка.	Высокий, адаптируется к различным условиям.
Вычислительная сложность	Низкий, эффективный для простых задач.	Более высокий уровень требует большей вычислительной мощности.
Требования к обучению	Ни один из них не работает по фиксированным правилам.	Требуется большой набор аннотированных данных.
Эффективность в сложных условиях	Испытывает трудности с адаптацией к изменениям освещения, шума и перекрытия объектов.	Устойчив к колебаниям и искажениям
Интерпретируемость	Высокий уровень, решения объяснимы.	Нижняя часть функционирует как «черный ящик».
Адаптируемость	Низкий уровень шума, требуется перепрограммирование для выполнения новых задач.	Высокий уровень, обобщается на различные задачи.
Обработка в реальном времени	Быстрее, подходит для немедленного анализа.	Работает медленнее, зависит от оптимизации оборудования.

2.2. Сравнение с человеческим зрением

МВ отличается от человеческого зрения несколькими фундаментальными способами, особенно в отношении скорости, точности, спектральной чувствительности и когнитивной обработки (Рисунок 6) [75]. Системы МВ могут обрабатывать визуальную информацию гораздо быстрее, чем люди, что делает их особенно эффективными для контроля качества в реальном времени [76]. Они не испытывают усталости, что обеспечивает стабильную, повторяемую работу в течение длительных циклов эксплуатации. Кроме того, они могут обнаруживать чрезвычайно мелкие детали, которые часто незаметны для человеческого глаза. В сочетании с камерами высокого разрешения и сложной обработкой изображений системы МВ обычно достигают точности на уровне микрометров в таких приложениях, как обнаружение дефектов и метрология размеров [77].

Рисунок 6. Разница между человеческим зрением и зрением среднего мозга.

Еще одно ключевое различие заключается в диапазоне обнаруживаемых длин волн. Человеческое зрение ограничено видимым спектром, тогда как системы МВ могут использовать инфракрасное, ультрафиолетовое и даже рентгеновское излучение для обнаружения особенностей, которые остаются скрытыми при обычном освещении. Эта расширенная спектральная возможность широко используется в медицинской диагностике, досмотре и неразрушающем контроле материалов.

При этом человеческое зрение обладает значительным преимуществом в контекстном понимании. Оно опирается на многолетний опыт, семантические знания и интуитивное мышление. Это возможности, которые современные системы МВ пока не могут воспроизвести. В отличие от них, системы МВ полагаются на предопределенные алгоритмы и модели ИИ, которые, хотя и мощные, лишены интуитивного понимания. Машины преуспевают в структурированных средах, но испытывают трудности в непредсказуемых сценариях, где необходима человеческая интуиция.

2.3. Роль ИИ и глубокого обучения в MV

Искусственный интеллект и глубокое обучение значительно расширили возможности визуального анализа, обеспечив сложный и адаптивный анализ. В отличие от традиционных подходов, основанных на правилах, модели, управляемые ИИ, обучаются и совершенствуются с течением времени [55, 78].

2.3.1. Извлечение признаков и классификация

Извлечение признаков и классификация являются основополагающими для многих задач компьютерного зрения (CV). Модели глубокого обучения (DL), особенно сверточные нейронные сети (CNN), преобразовали эти процессы [79]. В прошлом извлечение признаков основывалось на ручной разработке: экспертам в предметной области приходилось выбирать релевантные визуальные атрибуты, такие как края, текстуры или формы, на основе их понимания проблемы. Этот подход был трудоемким, требовал специальных знаний и часто упускал из виду тонкие, но значимые закономерности в данных.

Сверточные нейронные сети преодолевают эти ограничения, автоматически обучаясь иерархическим представлениям непосредственно из исходных данных [34, 80]. По мере того, как изображение перемещается по сети, ранние слои обнаруживают базовые структуры, такие как края и градиенты. Более глубокие слои затем объединяют их в более сложные и абстрактные признаки, такие как части объекта, целые формы или контекст сцены, что обеспечивает надежное распознавание [81].

Это иерархическое обучение напрямую поддерживает такие приложения, как обнаружение стресса у растений, где незначительные изменения цвета или деформации краев, зафиксированные ранними слоями, превращаются в связанные со стрессом фенотипы в более глубоких слоях, и сортировка фруктов, где признаки текстуры поверхности, цвета и формы объединяются для классификации качества продукции. Связывая низкоуровневые признаки с высокоуровневыми, сверточные нейронные сети обеспечивают надежную работу в различных приложениях MV.

Автоматическое извлечение признаков особенно полезно в задачах, связанных с большими объемами визуальных данных, таких как обнаружение дефектов в производстве, системы распознавания лиц и классификация объектов в различных областях, например, в автономных транспортных средствах и здравоохранении. Например, при обнаружении дефектов сверточные нейронные сети (CNN) могут научиться распознавать едва заметные дефекты в продуктах, которые трудно обнаружить человеческим инспекторам [82].

В распознавании лиц эти модели могут извлекать отличительные черты лица и сопоставлять их на разных изображениях с высокой точностью, даже в сложных условиях, таких как изменения освещения или угла [83]. Классификация объектов, будь то категоризация животных на фотографиях или идентификация товаров в розничной торговле, также значительно выигрывает от использования CNN, которые могут быстро и эффективно определять релевантные признаки для классификации [84]. Автоматизируя извлечение признаков и классификацию, модели глубокого обучения значительно повышают как скорость, так и надежность визуального анализа, что делает их незаменимыми в широком спектре промышленных приложений.

2.3.2. Распознавание образов и обнаружение аномалий

Системы машинного зрения на основе ИИ используют передовые методы машинного обучения, включая сверточные нейронные сети и другие архитектуры глубокого обучения, для распознавания образов в реальном времени и обнаружения аномалий [85, 86, 87].

Эти системы обрабатывают огромные объемы визуальных данных, обучаясь на типичных примерах, чтобы выявлять отклонения, которые могут сигнализировать о дефектах, нарушениях безопасности или сбоях в работе. В производстве, например, контроль качества на основе ИИ может оценивать тысячи изделий в минуту, обнаруживая дефекты размером менее миллиметра с исключительной точностью [88, 89]. Это снижает зависимость от ручной проверки, тем самым увеличивая производительность, сокращая затраты и минимизируя человеческие ошибки.

Применение обнаружения аномалий выходит далеко за рамки производственных линий: в финансах и кибербезопасности модели ИИ анализируют транзакционное или сетевое поведение для выявления мошеннической или вредоносной деятельности, как подробно описано в анализе выбросов Аггарвала [90]. В здравоохранении диагностические инструменты с использованием ИИ позволяют радиологам выявлять ранние признаки патологий, таких как рак, на медицинских изображениях, что приводит к более раннему вмешательству и лучшим клиническим результатам [91, 92]. В совокупности эти примеры использования демонстрируют способность ИИ повышать точность, операционную эффективность и качество принятия решений в различных областях.

2.3.3. Автономное принятие решений

Слияние машинного обучения и искусственного интеллекта позволяет машинам принимать автономные решения в робототехнике и промышленной автоматизации. Такие системы могут воспринимать окружающую среду, интерпретировать визуальные данные и выполнять действия, соответствующие контексту, без участия человека [93]. В производственных условиях промышленные роботы, оснащенные машинным обучением с использованием ИИ, перемещаются в динамичных рабочих пространствах, распознают детали с высокой точностью и корректируют свое поведение в режиме реального времени для учета изменений процесса [94]. Лидеры автомобильной промышленности, включая Tesla, Mercedes и BMW, используют автономные роботизированные манипуляторы, которые применяют машинное обучение для проверки узлов, выявления дефектов и выполнения корректировок в режиме реального времени во время производства [95, 96].

В логистике такие компании, как Amazon и DHL, используют автономных мобильных роботов (AMR), которые полагаются на управляемые искусственным интеллектом мобильные роботы для навигации по складу, сортировки посылок и адаптивного планирования маршрутов [97, 98, 99, 100].

Аналогично, в сельском хозяйстве автономные дроны сочетают в себе мобильные роботы и ИИ для оценки состояния урожая, обнаружения болезней растений и избирательного применения агрохимикатов, минимизируя воздействие на окружающую среду и повышая эффективность урожайности [101, 102]. Эти примеры подчеркивают, как интегрированные с ИИ мобильные роботы не только переосмысливают существующие промышленные практики, но и закладывают основу для следующего поколения автономных систем.

2.3.4. Адаптивное обучение

Системы визуального мониторинга на основе ИИ постоянно повышают свою точность, обучаясь на новых данных [35, 40 ]. Это особенно полезно в динамических приложениях, таких как мониторинг дорожного движения, медицинская диагностика и автономные транспортные средства [36, 103]. Системы визуального мониторинга требуют адаптивных механизмов для обработки изображений в условиях изменяющейся яркости, однако традиционные устройства визуальной адаптации ограничены низкой скоростью адаптации. Для решения этой проблемы Ли и др. предложили бионический двухмерный (2D) транзистор, использующий лавинную настройку в качестве механизма прямого подавления, обеспечивающий быструю и высокочастотную визуальную адаптацию [104]. Этот подход позволил достичь восприятия на уровне микросекунд, превзойдя скорость адаптации сетчатки человека и существующих бионических датчиков более чем в 10 000 раз.

Бионический транзистор динамически переключается между лавинным и фотопроводящим эффектами в ответ на изменения интенсивности света, регулируя чувствительность как по величине, так и по полярности (от 7,6 × 10⁴ до1 × 10³ А/Вт). Этот механизм обеспечил сверхбыструю адаптацию со скотопическим и фотопическим временем отклика 108 мкс и 268 мкс соответственно.

Благодаря интеграции этого настроенного на лавину бионического транзистора с CNN была разработана адаптивная система MV, способная к быстрой настройке на уровне микросекунд.

Эта система продемонстрировала исключительную производительность, достигнув точности распознавания изображений более 98% как в условиях слабого, так и яркого освещения [104].

Естественный интеллект функционирует в многомерном пространстве, при этом фундаментальными аспектами являются обучение в окружающей среде и адаптация к поведению. Зрение особенно важно для приматов, где биологические нейронные сети, состоящие из специализированных нейронов и синапсов, обрабатывают визуальную информацию, постоянно адаптируясь и обучаясь с исключительной энергоэффективностью. Забывание также играет жизненно важную роль в этом процессе, обеспечивая эффективное управление информацией.

Имитация этих адаптивных механизмов в зрении, обучении и забывании может ускорить развитие ИИ и сократить значительный энергетический разрыв между искусственным и биологическим интеллектом. Додда и др. представили биоинспирированную систему МВ на основе двумерного массива фототранзисторов, построенного из монослоя дисульфида молибдена (MoS₂) большой площади, в паре с аналоговым, энергонезависимым и программируемым стеком затворов памяти [105].

Эта архитектура обеспечила динамическое обучение и переобучение на основе визуальных стимулов, сохраняя при этом адаптивность к различным условиям освещения с минимальным энергопотреблением. В результате была создана «универсальная» платформа машинного зрения, объединяющая датчики, вычисления и память в одном устройстве, эффективно обходя узкое место фон Неймана, которое является проблемой традиционных CMOS-архитектур, и устраняя необходимость во внешних периферийных схемах или вспомогательных датчиках [105].

2.3.5. Периферийные вычисления и обработка в реальном времени

Периферийные вычисления коренным образом меняют работу систем обработки изображений, перемещая вычисления из удаленных центров обработки данных на локальное оборудование, расположенное рядом с местом захвата изображений. Такой подход напрямую решает две давние проблемы в архитектурах, зависящих от облачных вычислений: задержки связи и ограниченную пропускную способность [106, 107].

Традиционные рабочие процессы обработки изображений часто предполагают передачу необработанных данных изображений за пределы локальной сети для анализа, что не только замедляет принятие решений, но и вызывает опасения по поводу раскрытия конфиденциального визуального контента. Периферийные вычисления обходят обе проблемы, обрабатывая данные непосредственно в источнике, будь то интеллектуальные камеры, датчики с поддержкой IoT или встроенные чипы ИИ.

Это позволяет мгновенно реагировать в приложениях, где каждая миллисекунда имеет значение, таких как беспилотные автомобили, медицинская диагностика в реальном времени, промышленная робототехника и интеллектуальное видеонаблюдение [108, 109].

Этот переход обеспечивается моделями ИИ (в частности, сверточными нейронными сетями), которые были значительно оптимизированы для эффективной работы на специализированных ускорителях, таких как GPU, TPU и FPGA [110, 111]. Дальнейшее повышение эффективности достигается за счет легковесных механизмов вывода, таких как TensorFlow Lite и OpenVINO, которые позволяют сложным моделям работать на маломощных периферийных устройствах без ущерба для быстродействия [112, 113].

Снижая зависимость от централизованной инфраструктуры, периферийная визуальная информационная обработка не только повышает отказоустойчивость системы и конфиденциальность данных, но и сохраняет функциональность в условиях ограниченной пропускной способности или в условиях отключения. Поскольку отрасли все чаще требуют мгновенного визуального анализа, синергия между периферийными вычислениями и визуальной информационной обработкой будет продолжать стимулировать инновации в критически важных с точки зрения безопасности системах автоматизации и операционной эффективности.

Мониторинг биомассы в ферментируемых жидких культурах грибов требует непрерывного анализа в реальном времени с минимальным участием оператора, что делает интеллектуальное автоматизированное визуальное восприятие крайне важным. Для удовлетворения этой потребности Ву и др. представили Edge CV, компактную систему визуального мониторинга, построенную на принципах граничных вычислений для неинвазивной оценки биомассы in situ [114].

Система, построенная на платформе Jetson Nano (с 4 ГБ ОЗУ, 64 ГБ ПЗУ и 128-ядерным графическим процессором Maxwell), поддерживает выполнение алгоритмов визуального мониторинга в реальном времени. Встроенные камеры непрерывно передают данные изображений, обеспечивая полностью автоматизированный мониторинг без вмешательства оператора.

Для достижения точной оценки биомассы была разработана каскадная модель визуального мониторинга, состоящая из трех ключевых этапов: обнаружение объектов для определения окна наблюдения, сегментация для извлечения данных о штаммах в жидкости и морфологическая обработка изображений для вычисления индексов биомассы мицелия. Благодаря интеграции граничных вычислений с визуальным мониторингом, Edge CV повысила уровень автоматизации, снизив ручную нагрузку и улучшив эффективность и точность. Данное исследование продемонстрировало практический потенциал периферийного мониторинга биомассы в режиме реального времени во время ферментации [114].

3. Применение МВ

Технология микровизуализации (МВ) меняет принципы работы отраслей промышленности, предоставляя машинам возможность «видеть» и действовать на основе увиденного. Сочетая сложные методы обработки изображений с искусственным интеллектом, системы МВ теперь поддерживают более интеллектуальную автоматизацию, более тщательный анализ и принятие более обоснованных решений. Результат очевиден: повышение эффективности, более надежные измерения и большая стабильность системы. Эти преимущества реализуются в таких разнообразных областях, как производство, здравоохранение, транспорт, безопасность и мониторинг окружающей среды.

3.1. Промышленная автоматизация и контроль качества

На современных заводах визуальная инспекция стала основной технологией для быстрой и точной проверки и контроля качества [115, 116, 117, 118]. Такие отрасли, как автомобильная, электронная и фармацевтическая, полагаются на нее для обнаружения дефектов поверхности или внутренних недостатков, подтверждения соответствия деталей точным размерным характеристикам и обеспечения стабильного выпуска продукции от одной производственной партии к другой [9]. Объединяя камеры, датчики и алгоритмы на основе ИИ, эти системы выполняют оценку продукции в режиме реального времени, снижая вариативность, вызванную человеческим фактором, и повышая производительность [119].

Роботизированные манипуляторы с визуальным управлением еще больше расширяют возможности автоматизации, выполняя сложные операции, такие как сборка компонентов, сортировка деталей и манипулирование объектами, непосредственно на производственном участке. Совокупный эффект заключается в повышении стабильности продукции, снижении эксплуатационных затрат и минимизации незапланированных простоев [25, 120].

Однако розничная логистика по-прежнему в значительной степени опирается на ручной труд для мониторинга полок и пополнения запасов. Этот процесс подвержен неэффективности, перегрузке персонала и неточностям в учете запасов. Чтобы противостоять этому, Гао и др. разработали автономного робота для пополнения запасов, построенного на основе возможностей MV [121].

Оснащенный модулем машинного зрения OpenMV, робот самостоятельно распознавал отсутствие товаров на складе, определял положение товаров и препятствий, а также собирал важные показатели запасов. Специально разработанный на Python алгоритм планирования траектории позволял ему перемещаться по проходам магазина и выполнять задачи по пополнению запасов без участия человека. Автоматизируя мониторинг и пополнение запасов, эта система повысила точность учета запасов, снизила затраты на рабочую силу, оптимизировала размещение товаров и улучшила общую операционную эффективность и удовлетворенность клиентов [121].

Ян и др. сосредоточились на интеграции технологии визуального контроля в промышленные автоматизированные сборочные линии, уделяя особое внимание системе визуального контроля, основанной на алгоритме обнаружения краев [122].

Применяя обнаружение краев в обработке изображений, система точно определяла положение, геометрию и размеры заготовки, тем самым повышая как автоматизацию, так и эффективность работы. В исследовании была предложена полная структура визуального контроля, включающая получение изображений, предварительную обработку, извлечение признаков и алгоритмы обнаружения.

Обширные симуляции и экспериментальная проверка подтвердили высокую точность и надежность системы в реальных промышленных условиях, достигнув точности обнаружения 0,01 мм при общей погрешности системы ниже 0,5%. Полученные результаты способствовали развитию интеллектуальной промышленной автоматизации, предлагая надежную техническую основу для будущих разработок [122].

Али и др. предложили интеллектуальную систему контроля качества и обнаружения неисправностей в производственных системах, охватывающую как предпроизводственные, так и послепроизводственные этапы в рамках Индустрии 4.0 [123].

На рисунке 7a изображена система MV, а на рисунке 7b показана комплексная система контроля качества, интегрирующая обе фазы. На предпроизводственной стадии датчики вибрации, установленные на поверхности асинхронного двигателя, собирают данные с редуктора через вал двигателя. Затем эта информация передается через интернет-шлюзы в системы искусственного интеллекта, где модели глубокого обучения оценивают состояние редукторной системы двигателя. Состояние системы в реальном времени отображается на подключенном экране, а сервер базы данных непрерывно записывает исторические данные и случаи возникновения неисправностей [123].

Рисунок 7. ( а ) Система MV, ( б ) предлагаемая интеллектуальная сеть. Вдохновлено [ 123 ].

Благодаря раннему обнаружению неисправностей, эта система позволила инженерам и операторам принимать упреждающие меры, снижая риск неожиданных поломок оборудования. На этапе после производства, изображенном в верхнем левом углу рисунка, использовалась система MV для проверки готовой продукции на конвейерной ленте производственной линии.

Оснащенная камерами и специализированной системой освещения, система получала высококачественные изображения продукции. Затем эти изображения анализировались механизмами искусственного интеллекта, обученными различать дефектные и недефектные изделия. Перед окончательной классификацией и прогнозированием неисправностей механизмы ИИ предварительно обрабатывали данные вибрации и изображения для повышения точности [123].

3.2. Медицинская визуализация и диагностика

MV трансформирует здравоохранение, особенно в том, как медицинские изображения интерпретируются и используются для принятия клинических решений. Она играет решающую роль в анализе рентгеновских снимков, МРТ, КТ и УЗИ для более точного выявления таких заболеваний, как рак, переломы и неврологические расстройства [14].

Системы MV на базе ИИ помогают радиологам, выявляя закономерности на медицинских изображениях, что приводит к более ранней и надежной диагностике [91, 124]. Кроме того, CV/MV используется в роботизированной хирургии, где наведение с помощью визуализации в реальном времени позволяет проводить точные, минимально инвазивные процедуры. Автоматизация лабораторий также выигрывает от MV, поскольку она ускоряет анализ образцов крови, гистологических препаратов и генетических данных, повышая эффективность диагностики [14, 125].

В последние годы решения на основе компьютерного зрения, управляемые глубокими знаниями, разрабатывались для малоинвазивной хирургии как академическими исследователями, так и профессионалами отрасли. Эти приложения компьютерного зрения охватывают различные задачи, от анализа рабочих процессов до автоматической оценки производительности. Хотя аналогичные цифровые решения уже масштабированы и клинически внедрены для диагностического использования в таких областях, как гастроинтестинальная эндоскопия [126] и радиология [127], использование компьютерного зрения в хирургии остается недостаточно развитым.

При малоинвазивной абдоминальной хирургии интраоперационное кровотечение является серьезным осложнением, часто возникающим в результате случайного повреждения артерий или вен. Навыки хирурга играют решающую роль в минимизации этого риска. Для повышения безопасности Пенза и др. разработали систему Enhanced Vision System for Robotic Surgery (EnViSoRS) ( Рисунок 8 ), которая включает в себя систему отслеживания заданного пользователем безопасного объема (SV) для снижения вероятности повреждения сосудов [128].

EnViSoRS расширяет возможности хирурга, предоставляя поддержку дополненной реальности (AR) во время роботизированных процедур. Ее структура состоит из трех ключевых компонентов: (i) трекера LT-SAT, гибридного алгоритма, обеспечивающего долговременный мониторинг заданной пользователем безопасной зоны (SA); (ii) алгоритма 3D-реконструкции плотных мягких тканей, необходимого для расчета SV; и (iii) функций AR, которые визуализируют защищенный SV и отображают графический индикатор, указывающий расстояние между хирургическими инструментами и реконструированной поверхностью.

Рисунок 8. EnViSoRS: усовершенствованная система визуального контроля для повышения безопасности роботизированной хирургии, интегрированная с системой dVRK (WPI и Университет Джона Хопкинса). Используя главную консоль, хирург может (i) обозначить SA с помощью стилуса и графического планшета, (ii) наблюдать SV, наложенный на изображения, и (iii) использовать графический индикатор для отслеживания расстояния между инструментами и 3D-поверхностью SV [128].

Система была интегрирована с роботизированной хирургической платформой dVRK для тестирования и проверки. Для оценки точности, надежности, производительности и удобства использования использовалась имитация операции на печени на фантоме.

Результаты подтвердили, что EnViSoRS достигла требуемой хирургической точности (<5 мм) и надежно вычисляла и идентифицировала SV с высокой точностью и полнотой.

Стратегия оптимизации повысила вычислительную эффективность, позволив обновлять функции дополненной реальности со скоростью до 4 кадров в секунду без нарушения визуализации стереоскопического эндоскопического видео в реальном времени. Тесты на удобство использования дополнительно продемонстрировали бесшовную интеграцию с коммерческими роботизированными хирургическими системами, подчеркнув ее потенциал для применения в реальных условиях [128].

3.3. Автономные транспортные средства и робототехника

Развитие автономных транспортных средств и роботизированных систем в значительной степени зависит от технологии MV. Самоуправляемые автомобили используют камеры, LiDAR и алгоритмы машинного зрения на основе ИИ для восприятия и интерпретации окружающей среды [129].

Эти системы позволяют обнаруживать дорожные знаки, разметку полос, пешеходов и другие транспортные средства, обеспечивая безопасную навигацию и избегание препятствий. Аналогичным образом, MV расширяет возможности промышленных и сервисных роботов, предоставляя возможности распознавания объектов, отслеживания движения и навигации. В логистике складские роботы используют визуальное наведение для эффективной сортировки и транспортировки товаров, в то время как дроны используют системы машинного зрения для картографирования, наблюдения и поисково-спасательных операций [130, 131].

До и др. разработали всенаправленную систему машинного зрения для домашнего сервисного робота, сосредоточившись на экономической эффективности за счет использования легкодоступных компонентов [132]. Система, установленная на мобильном роботе, управляемом беспроводным способом через ПК, была разработана для двух основных функций: обнаружения вторжения и обнаружения пожара. Для обнаружения вторжения был применен адаптивный метод вычитания фона для анализа последовательностей изображений. Кроме того, был введен уникальный алгоритм обнаружения пожара, который обрабатывает изображения на трех различных этапах: на уровне пикселей, на уровне блоков и на глобальном уровне [132].

Григореску и др. описали разработку архитектуры ROVIS MV для сервисной робототехники, уделяя особое внимание подходу Model Driven Development (MDD), используемому при проектировании и реализации системы машинного зрения [133].

Разработка следовала структурированному подходу, начиная с определения основных требований ROVIS, за которым следовали три ключевых этапа проектирования: анализ требований, функциональный анализ системы и архитектурное проектирование. Для моделирования потока информации между пользователем и системой машинного зрения использовалась структура совместного управления. Предложенная архитектура сыграла решающую роль в обеспечении возможностей визуального восприятия реабилитационного робота FRIEND.

Ван и др. представили подход к активному предотвращению столкновений в реальном времени в дополненной среде, объединив виртуальные 3D-модели роботов с видеопотоками операторов в реальном времени для обнаружения и мониторинга столкновений [134].

Была разработана и интегрирована с контроллерами роботов система прототипа, позволяющая осуществлять адаптивное управление без необходимости программирования пользователем. При обнаружении потенциального столкновения система могла предупредить оператора, остановить робота или изменить его траекторию, чтобы предотвратить столкновение. Исследование на примере подтвердило практическую эффективность системы в реальных условиях, особенно в совместной сборке человеком и роботом, где она значительно повысила безопасность оператора [134].

В последние годы сектор логистики холодовой цепи значительно вырос, однако автоматизация в этой области остается ограниченной. В частности, операции в холодильных складах требуют тщательного компромисса между безопасностью и операционной эффективностью. Этот баланс существующие алгоритмы обнаружения часто с трудом поддерживают. Для решения этой проблемы Вэй и др. предложили систему распознавания и захвата коробок для холодильных складов, построенную на основе YOLOv5 [135].

Система включала в себя человеко-машинный интерфейс, поддерживающий как дистанционное управление, так и полностью автономный захват в охлажденных условиях. В базовый алгоритм были внесены несколько улучшений: интеграция механизма внимания CA повысила точность, облегченный модуль Ghost заменил структуру CBS для повышения эффективности выполнения, а функция потерь Alpha-DIoU была использована для повышения точности обнаружения. Эти корректировки привели к увеличению средней точности (mAP) на 0,711% и увеличению количества кадров в секунду (FPS) на 0,7%, при этом сохранилась точность обнаружения.

Для оценки производительности системы была создана экспериментальная платформа. Главная машина была оснащена процессором AMD Ryzen 7 5800H, графическим процессором NVIDIA GeForce RTX 3060, 16 ГБ оперативной памяти и 6 ГБ видеопамяти. Для сбора данных использовалась камера ZED 2i (Stereolabs Inc., Париж, Франция) с поляризатором и объективом с фокусным расстоянием 4 мм. Система работала под управлением Windows 10 с CUDA 11.6.134, а разработка велась на Python 3.9 с использованием фреймворка PyTorch [135].

Экспериментальная установка, показанная на рисунке 9a , включала ПК, систему управления, камеру, двигатель, слайдер, присоску, телескопическую штангу и целевые коробки для захвата. Камера была установлена по центру над параллельной средней направляющей для максимального увеличения поля зрения, как показано на рисунке 9b . В процессе обнаружения ложноположительные результаты относились к нецелевым объектам, ошибочно идентифицированным как целевые, а ложноотрицательные результаты указывали на пропущенные обнаружения картонных коробок.

Всего было проанализировано 200 изображений, содержащих 1824 экземпляра, при этом были зафиксированы показатели ложноположительных и ложноотрицательных результатов. Экспериментальные результаты показали, что механизм внимания CA улучшил точность на 2,32%, модуль Ghost сократил время отклика на 13,89%, а функция потерь Alpha-DIoU повысила точность позиционирования на 7,14%. Эти оптимизации в совокупности привели к уменьшению времени отклика на 2,16%, увеличению точности позиционирования на 4,67% и общему улучшению производительности системы [135].

Рисунок 9. ( а ) Экспериментальная установка, ( б ) ложноположительные и ложноотрицательные результаты [ 135 ].

3.4. Безопасность и наблюдение

Видеокамеры широко используются в системах безопасности и видеонаблюдения для повышения уровня безопасности, обнаружения угроз и предотвращения преступлений [22, 136, 137]. Системы распознавания лиц на базе видеокамер позволяют проверять личность в зонах повышенной безопасности, таких как аэропорты, правительственные здания и финансовые учреждения.

Видеоаналитика на основе ИИ может отслеживать видеопоток в режиме реального времени, обнаруживая подозрительную активность, несанкционированные вторжения или бесхозные объекты. В управлении дорожным движением системы видеокамер анализируют движение транспортных средств, выявляют нарушения правил дорожного движения и оптимизируют безопасность дорожного движения. Кроме того, технологии ночного видения и тепловизионной съемки расширяют возможности наблюдения в условиях низкой освещенности или неблагоприятных погодных условий, повышая эффективность обеспечения безопасности в различных средах [138].

Нигам и др. разработали и внедрили систему видеонаблюдения MV Surveillance System AI (MaViSS-AI) для обеспечения соблюдения правил COVID-19 с использованием платформы Jetson Nano [139]. Разработанная с учетом экономической эффективности, точности, результативности и безопасности, система контролировала соблюдение правил с помощью двух ключевых функций: отслеживания и подсчета людей для оценки социального дистанцирования и обнаружения лицевых масок с использованием методов обнаружения объектов.

Для обнаружения и подсчета людей использовался алгоритм YOLO (You Only Look Once), обеспечивающий мониторинг и контроль в режиме реального времени. Для обеспечения социального дистанцирования система рассчитывала расстояние между центроидами людей, отмечая любые нарушения при превышении порогового значения. Обнаружение масок осуществлялось с помощью модели YOLO V4 DL. Кроме того, система была способна выдавать оповещения о подозрительных событиях, позволяя сотрудникам службы безопасности оперативно реагировать [139].

Условия дорожного движения формируются не только инфраструктурой, такой как светофоры и схема дорог, но и поведением водителей, которое часто упускается из виду. Традиционные системы управления дорожным движением испытывают трудности с такими задачами, как регулирование времени зеленого света или выявление транспортных средств, совершающих незаконные повороты.

Для решения этой проблемы Хан и др. [140] разработали самоадаптивную систему реального времени, которая сочетает обработку изображений с машинным обучением для улучшения транспортного потока на перекрестках. Их подход применил модель YOLOv3 для обнаружения транспортных средств и использовал нейронные сети для мониторинга дорожной активности.

Система отслеживала центроиды транспортных средств (центры масс) для восстановления индивидуальных траекторий и выявления тех, кто выезжает за пределы разрешенных полос или совершает незаконные повороты. В ходе оценки она достигла точности 88,43% в обнаружении транспортных средств и 90,45% в выявлении запрещенных маневров и неосторожного вождения. Добавление сверточной нейронной сети еще больше повысило ее производительность на плотных многополосных перекрестках, помогая уменьшить заторы и повысить безопасность дорожного движения.

Быстрое расширение городов, обусловленное экономическим ростом и технологическими изменениями, привело к резкому увеличению объемов строительства во всем мире. Однако частые несчастные случаи на строительных площадках указывают на более глубокие проблемы: неадекватное распознавание опасностей, непоследовательный надзор и плохое соблюдение протоколов безопасности.

Для решения этой проблемы Чжан и др. [141] разработали систему безопасности на основе ИИ, которая использует MV для круглосуточного мониторинга строительных площадок в режиме реального времени. Объединяя обнаружение объектов на основе ИИ с анализом пространственного взаимодействия, система интерпретирует динамические условия на площадке и выявляет повторяющиеся закономерности несчастных случаев.

Была разработана специальная платформа мониторинга и раннего предупреждения для автоматического обнаружения опасных сценариев и запуска превентивных оповещений до того, как произойдут инциденты. Тесты показали, что этот подход значительно улучшил управление безопасностью на строительных площадках, обеспечив повышение эффективности управления на 97,4%, а также повышение стандартов соблюдения требований и защиты работников.

На рисунке 10 представлена структура предлагаемой системы, которая работает в три этапа. Сначала на строительной площадке устанавливается оборудование для мониторинга активности рабочих. Датчики записывают данные о движении, такие как скорость и угол, которые затем используются для создания большого набора данных о поведении рабочих.

На основе этих данных создаются и сохраняются на интеллектуальных устройствах модели для распознавания поведения и отслеживания активности, что обеспечивает непрерывный и адаптивный мониторинг безопасности на протяжении всего жизненного цикла проекта. Второй этап посвящен применению и внедрению, где встроенный в систему блок распознавания обрабатывает сигналы активности рабочих и классифицирует их как «безопасные» или «небезопасные». На основе этой оценки при обнаружении небезопасного поведения сотрудникам и центру управления отправляются оповещения или уведомления.

Сотрудники получают корректирующие указания, а руководители проводят оценку рисков безопасности на основе поведения (BBS) на месте и внедряют целевые стратегии управления безопасностью. Заключительный этап включает в себя непрерывное совершенствование модели, где новые данные, полученные на этапе внедрения, используются для повышения точности.

Неправильно классифицированные или пограничные случаи, выявленные во время работы, регистрируются как стандартные ошибки и включаются в обучающую базу данных, что позволяет системе итеративно совершенствовать свои модели классификации. Эта обратная связь поддерживает постоянное улучшение надежности обнаружения, в конечном итоге повышая как показатели безопасности, так и эффективность работы на месте [141].

Рисунок 10. Интеллектуальная система распознавания для управления безопасностью в гражданском строительстве [141].

3.5. Сельское хозяйство и мониторинг окружающей среды

МВ играет все большую роль в развитии точного земледелия и защите окружающей среды [142]. В растениеводстве дроны и автономные наземные платформы, оснащенные мультиспектральными и гиперспектральными датчиками, теперь регулярно используются для оценки свойств почвы, отслеживания жизнеспособности растений и обнаружения ранних признаков заражения вредителями или болезнями.

Эти возможности позволяют более рационально использовать воду, точно доставлять питательные вещества и минимизировать использование химикатов. Они представляют собой ключевые столпы устойчивой сельскохозяйственной практики. В животноводстве МВ поддерживает индивидуальную идентификацию животных, непрерывный мониторинг здоровья и анализ поведенческих моделей. Приложения также включают мониторинг окружающей среды, где спутниковые снимки помогают отслеживать вырубку лесов, оценивать качество воздуха и воды и наблюдать за показателями изменения климата. Вместе эти возможности укрепляют устойчивое управление ресурсами и способствуют сохранению экосистем [143].

MV (мониторинг) стал высокоэффективным средством выявления стресса растений, такого как дефицит воды, нарушения питания и вспышки вредителей или болезней [144, 145]. Этот подход основан на использовании камер и датчиков для получения визуальных данных, которые затем анализируются с помощью специализированного оборудования и программного обеспечения для получения практических выводов.

Его применение охватывает широкий спектр сельскохозяйственных функций, включая обнаружение присутствия, позиционирование объектов, идентификацию видов или сортов, характеристику дефектов и измерение размеров [146]. В теплицах повышенная влажность и температура воздуха создают условия, благоприятные для размножения вредителей и распространения болезней, что представляет значительные экономические риски, если не будет обнаружено и устранено на ранней стадии.

Традиционный ручной мониторинг в теплицах отнимает много времени, требует больших трудозатрат и подвержен субъективной интерпретации уровня заражения. Ранние симптомы вредителей и болезней часто незаметны для человеческого глаза, что приводит к обширному повреждению урожая до обнаружения. В недавних исследованиях был внедрен MV для мониторинга здоровья растений, как показано на рисунке 11 [147].

Рисунок 11. Концепция идентификации вредителей и болезней с использованием MV [147].

В нескольких исследованиях изучались различные подходы к обнаружению стресса у растений с использованием МВ. Фуше и др. разработали метод, использующий перцептрон с одним скрытым слоем и анализ изображений [148]. Преобразовав изображения растений в бинарный формат, где растения отображались черным цветом на белом фоне, они проанализировали параметры формы для определения уровня стресса. Их метод оценивал стресс растений на основе моментных инвариантов, фрактальных размерностей и средней длины концевых ветвей [149].

В другом исследовании Чанг и др. исследовали потенциал коммерческих смартфонов для мониторинга состояния растений. Они обнаружили, что смартфоны могут служить экономически эффективной альтернативой традиционным ближнеинфракрасным (БИК) спектрофотометрам и БИК-камерам, делая обнаружение стресса у растений более доступным [150].

Между тем, Госал и др. продемонстрировали эффективность глубокого обучения в МВ для идентификации и классификации различных типов стресса у растений сои [151]. Их модель, обученная на больших наборах данных, достигла впечатляющей точности в 94,13%, что подтверждено матрицей ошибок. Эти результаты подчеркивают потенциал обнаружения стресса растений в режиме реального времени с помощью мобильных приложений, предлагая практическое решение для современного точного земледелия.

Была разработана полностью автоматизированная система обнаружения стресса у растений, призванная предоставить фермерам простое в использовании решение для мониторинга состояния урожая [152]. Система захватывала изображения листьев непосредственно с поля с помощью камеры и применяет методы машинного обучения для классификации их как здоровых или нездоровых. Алгоритм машины опорных векторов (SVM) был обучен с использованием извлеченных признаков листьев, что обеспечивало точную классификацию.

Вместо передачи целых изображений в облако отправлялись только извлеченные признаки для эффективной обработки. На принимающей стороне сельскохозяйственные консультанты анализируют эти признаки для выявления стресса у растений с помощью методов классификации. В системе использовались текстуры матрицы совместной встречаемости уровней серого (GLCM) для различения здоровых и подверженных стрессу листьев.

Производительность системы оценивалась на основе точности классификации и эффективности обнаружения стресса, что обеспечивало надежные результаты для точного земледелия [152]. MV получила широкое распространение в сортировке фруктов, способствуя автоматизации в пищевой промышленности. В исследованиях использовались SVM и искусственные нейронные сети (ANN) для оценки зрелости и качества фруктов. Эффективность этих методов зависит от наличия больших, надежных наборов данных для обучения. Как показано на рисунке 12 , эта технология играет решающую роль в этих процессах [147].

Рисунок 12. Процесс применения MV при сортировке фруктов [147].

4. Будущие тенденции и направления исследований

Продолжающаяся эволюция MV формируется благодаря трансформационным технологиям, включая объяснимый ИИ (XAI) [ 153 ], квантовые вычисления [154] и нейроморфные вычисления [155], которые потенциально могут переосмыслить эту область. Эти инновации направлены на решение основных проблем современных систем MV за счет улучшения интерпретируемости, вычислительной эффективности и адаптивных возможностей, тем самым преодолевая существующие узкие места и обеспечивая новые возможности внедрения в реальном мире.

Траектория развития MV будет тесно связана с прогрессом в XAI [153], квантовых вычислениях [154] и нейроморфных архитектурах [155], поскольку эти парадигмы в совокупности повышают прозрачность модели, ускоряют обработку и поддерживают более динамичное визуальное мышление. Чтобы прояснить этот прогноз, новые разработки можно разделить на краткосрочные, среднесрочные и долгосрочные горизонты, каждый из которых основан на конкретных методологических прорывах и стандартизированных системах оценки.

4.1. Краткосрочная перспектива (1–3 года): объяснимость и устойчивость.

Современные системы MV, основанные на DL, часто работают как «черные ящики», предоставляя мало информации о том, как принимаются решения. Эта непрозрачность особенно проблематична в приложениях с высокими ставками, таких как автономное вождение, медицинская диагностика [86] и промышленная автоматизация, где проверяемые рассуждения и подотчетность системы не подлежат обсуждению. XAI появился для решения этой проблемы с целью создания прогнозов, которые пользователи-люди могут понимать, анализировать и которым могут доверять [156].

Текущие и ближайшие исследования в области XAI для MV, вероятно, будут отдавать приоритет разработке изначально интерпретируемых архитектур моделей, таких как модули на основе внимания и методы атрибуции признаков, которые явно определяют области изображения, наиболее влияющие на данный результат [157]. Дополнительные стратегии могут включать гибридные структуры, которые интегрируют DL с основанным на правилах или символическим ИИ, тем самым повышая прозрачность при сохранении прогнозной производительности. Повышая доверие и подотчетность в системах MV, XAI будет способствовать более широкому внедрению в отраслях, требующих строгой проверки и соответствия нормативным стандартам [158].

В краткосрочной перспективе также крайне важно разработать стандартизированные критерии оценки методов XAI в системах машинного обучения. Эти критерии обеспечат общую основу для оценки интерпретируемости, устойчивости и надежности в различных областях. Кроме того, приоритетной задачей останется решение проблем устойчивости, таких как атаки злоумышленников, изменчивость окружающей среды и количественная оценка неопределенности, что обеспечит надежное функционирование систем машинного обучения в различных реальных условиях.

4.2. Среднесрочная перспектива (3–7 лет): Нейроморфные вычисления и эффективное обучение

Нейроморфные вычисления, вдохновленные архитектурой человеческого мозга, представляют собой еще одно перспективное направление для развития машинного зрения [159]. В отличие от традиционных вычислительных архитектур фон Неймана, нейроморфные системы используют импульсные нейронные сети (SNN), которые имитируют биологические нейроны и синапсы, что позволяет более энергоэффективно и в режиме реального времени обрабатывать визуальные данные [160].

Одним из ключевых преимуществ нейроморфных вычислений в машинном зрении является их способность обрабатывать потоковые данные с низкой задержкой и минимальным энергопотреблением. Это делает их идеальными для приложений периферийных вычислений, таких как автономные дроны, интеллектуальные камеры и носимые системы машинного зрения [106, 161].

Исследования в этой области, как ожидается, будут сосредоточены на улучшении масштабируемости и адаптивности нейроморфных процессоров, что позволит им обрабатывать сложные задачи обработки изображений, такие как понимание сцены, распознавание жестов и прогнозная аналитика. Кроме того, интеграция нейроморфных вычислений с методами глубокого обучения может привести к созданию гибридных архитектур, сочетающих эффективность обработки, управляемой событиями, с надежностью глубоких сетей [162].

Нейроморфная инженерия также включает разработку искусственных систем, которые воспроизводят механизмы обработки информации биологических нервных систем, в частности, с помощью электронных аналоговых схем. Хотя компьютеры превосходят человеческий мозг по скорости и точности, они испытывают трудности с задачами распознавания.

Тем не менее, ожидается, что прогресс в нейроморфных вычислениях, особенно в компьютерном зрении и обработке изображений, значительно улучшит то, как машины воспринимают визуальную информацию и рассуждают о ней. Субраманиам исследовал основные визуальные функции, такие как сегментация изображений, визуальное внимание и распознавание объектов [163]. В работе был пересмотрен анизотропный диффузионный метод и представлен инновационный метод сегментации на основе мемристоров.

Также была оценена роль нейроморфных датчиков зрения в искусственных системах, с особым вниманием к протоколам, управляющим асинхронной связью на основе событий. Были критически оценены два известных алгоритма для распознавания объектов и моделирования внимания. Центральной темой было включение энергонезависимых элементов памяти, особенно мемристоров, в аппаратное обеспечение зрения. Исследование завершилось тем, что была подчеркнута ключевая роль специализированных аппаратных ускорителей, и было высказано предположение, что достижения в технологиях энергонезависимой памяти могут служить катализатором для систем компьютерного зрения следующего поколения [163].

Критическое сравнение традиционных сверточных нейронных сетей (CNN) и нейроморфных подходов подчеркивает их взаимодополняющие сильные и слабые стороны. Хотя CNN продолжают доминировать по точности в бенчмарках, они ограничены относительно высокой задержкой и энергопотреблением.

В отличие от них, нейроморфные модели предлагают сверхнизкую задержку и исключительную энергоэффективность, что делает их особенно подходящими для периферийных приложений, таких как дроны и носимые системы машинного зрения. Однако их производительность с точки зрения точности все еще ограничена, а специализированное оборудование остается дефицитным.

По этим причинам наиболее перспективные достижения в ближайшем будущем, вероятно, будут связаны с гибридными архитектурами, которые сочетают сверточные нейронные сети (CNN) со спайковыми нейронными сетями (SNN). Такие модели стремятся сохранить устойчивость глубокого обучения, одновременно используя преимущества вычислительной эффективности обработки, управляемой событиями [164, 165, 166, 167].

В среднесрочной перспективе также потребуется разработать наборы эталонных тестов для нейроморфных задач машинного обучения. Эти тесты будут направлять разработку стратегий совместного проектирования аппаратного и программного обеспечения, обеспечивая справедливую оценку нейроморфных систем и поддерживая их интеграцию в практические приложения.

4.3. Долгосрочная перспектива (7+ лет): квантовые и гибридные парадигмы

Квантовые вычисления обладают потенциалом для значительного улучшения возможностей машинного обучения за счет ускорения сложных вычислений, которые в настоящее время невозможны с помощью классических вычислений. Квантовые алгоритмы, такие как квантово-улучшенное машинное обучение, могут значительно сократить время обучения моделей глубокого обучения и обеспечить более быструю обработку изображений для больших наборов данных [154, 168].

Одним из перспективных направлений исследований является применение квантовых нейронных сетей (QNN) для распознавания и классификации изображений. QNN показали свою эффективность в задачах классификации, но сталкиваются с трудностями при классификации изображений с несколькими классами. Бай и др. представили квантовую нейронную сеть с улучшенной суперпозицией (SEQNN) для улучшения квантовой классификации [168].

SEQNN интегрирует суперпозицию изображений с квантовыми бинарными классификаторами (QBC) для решения двух ключевых задач. Во-первых, она преодолевает линейность квантовой эволюции, используя стратегию «один против всех» с QBC, что позволяет лучше справляться с нелинейностью в классификации. Во-вторых, для уменьшения дисбаланса данных в подзадачах «один против всех» SEQNN применяет суперпозицию изображений, вдохновленную методом смешивания. Были представлены два метода: суперпозиция квантовых состояний (QSS) и суперпозиция углов (AS). Эксперименты на наборах данных MNIST и Fashion-MNIST показали, что AS работает лучше, чем QSS, в многоклассовой классификации. С помощью AS SEQNN превзошла существующие модели, достигнув точности 87,56% на наборе данных MNIST [168].

Квантово-оптимизационные методы также перспективны для повышения эффективности обнаружения и отслеживания объектов в реальном времени, особенно в сценариях, где критически важны решения, принимаемые за доли секунды, например, в случае автономных роботов или наблюдения с высокими ставками [169, 170, 171]. Тем не менее, их фактическое внедрение пока остается недостижимым, в основном потому, что современное квантовое оборудование все еще слишком примитивно. Эта реальность делает гибридные квантово-классические подходы не просто полезными, но и необходимыми в качестве прагматичного пути развития квантовых технологий.

В перспективе, для надлежащей оценки масштабируемости, производительности и устойчивости квантовых систем машинного зрения в реальных условиях потребуются стандартизированные критерии. Еще более спекулятивными, но потенциально революционными являются архитектуры, объединяющие квантовые вычисления с нейроморфными принципами. Сочетая теоретическое ускорение квантовых вычислений с эффективностью нейроморфной обработки, основанной на принципах, вдохновленных работой мозга, такие гибриды однажды смогут создать системы машинного зрения, значительно превосходящие возможности современных технологий.

4.4. Синтез

В совокупности эти траектории указывают на то, что системы на основе микропроцессоров будут переходить от экспериментальных прототипов к специализированным, готовым к серийному производству платформам. Объяснимые модели, вероятно, станут основополагающими в критически важных для безопасности областях, таких как автономное вождение и медицинская диагностика, где интерпретируемость напрямую влияет на принятие регулирующими органами и доверие пользователей.

Квантово-ускоренные подходы могут первоначально получить распространение в высокопроизводительной промышленной инспекции и аналитике в реальном времени, связанной с обороной, в то время как нейроморфные процессоры идеально подходят для условий с ограниченным энергопотреблением, включая дроны, носимые устройства и дистанционное зондирование.

Помимо отдельных технических прорывов, синергетическая интеграция этих парадигм приведет к созданию систем на основе микропроцессоров, которые будут не только более эффективными и адаптивными, но и по своей природе интерпретируемыми. Это ускорит их внедрение в здравоохранении, сельском хозяйстве, безопасности и промышленной автоматизации в ближайшее десятилетие.

Критическое сравнение традиционных сверточных нейронных сетей (CNN) и нейроморфных подходов еще раз подчеркивает эту тенденцию (таблица 4). Хотя CNN продолжают устанавливать самые современные стандарты, они страдают от высокой задержки и энергопотребления. Нейроморфные модели превосходят их по эффективности в реальном времени, но отстают по точности и доступности оборудования, что делает гибридные решения CNN–SNN привлекательным промежуточным шагом на пути к более широкому внедрению.

Таблица 4. Нейроморфные и классические сверточные нейронные сети для MV.

Аспект	Классические сверточные нейронные сети	Нейроморфные (импульсные нейронные сети)	Компромисс/Примечания
Задержка	Высокая (пакетная обработка; масштаб миллисекунд-секунд)	Сверхнизкий (управляемый событиями; масштаб мкс–мс) [ 164 ]	Нейроморфные технологии превосходно подходят для сценариев реального времени (например, дроны, робототехника).
Потребление электроэнергии	Умеренно-высокий уровень (интенсивная нагрузка на GPU/TPU)	Очень низкий (событийно-ориентированное, разреженное кодирование) [ 164 ]	Нейроморфные технологии предпочтительны для устройств Интернета вещей/периферийных устройств с ограничениями по энергопотреблению.
Точность	Устоявшиеся, современные эталонные тесты	Развивающийся; часто отстает от CNN на сложных наборах данных [ 165 ]	Сверточные нейронные сети по-прежнему превосходят конкурентов по точности, но разрыв сокращается.
Поддержка оборудования	Широко доступны (GPU/TPU, CPU)	Limited (Long, TrueNorth, SpiNNaker) [ 166 ]	Нейроморфные аппаратные средства по-прежнему занимают нишевую позицию и являются менее доступными.
Адаптируемость	Отлично работает с большими объемами обучающих данных.	Хорошо подходит для временных/событийных данных, но менее устойчив к крупномасштабным задачам с учителем [ 167 ]	Гибридные архитектуры могут сочетать в себе сильные стороны.

В то время как в предыдущих разделах представлены подробные результаты отдельных исследований, более высокий уровень обобщения помогает выявить более широкие закономерности в различных областях применения. С этой целью мы составили мета-резюме (см. дополнительная таблица S2), которое объединяет результаты по областям: здравоохранение, производство, автономные системы и наблюдение. В таблице описаны наиболее распространенные задачи, типичные методологические подходы, репрезентативные диапазоны производительности и новые тенденции. Эта консолидированная перспектива предлагает читателям краткий, междисциплинарный обзор современного состояния дел, выходящий за рамки отдельных тематических исследований.

5. Проблемы и ограничения

МВ добилась значительных успехов, во многом благодаря прорывам в области ИИ, глубокого обучения и изображений высокого разрешения [172]. Несмотря на эти достижения, широкое внедрение и стабильная производительность по-прежнему сдерживаются рядом постоянных проблем [147, 173], включая вычислительные ограничения, недостаточное количество обучающих данных, этические проблемы и меняющиеся нормативные требования. Эффективное решение этих проблем потребует постоянного сотрудничества между инженерными, политическими и социальными дисциплинами.

Эта эволюция также изменила характер основных ограничений данной области. Классические методы машинного обучения, такие как обнаружение границ на основе правил, пороговая обработка интенсивности и сопоставление шаблонов, имели явные преимущества: их было легко настроить, они работали на скромном оборудовании, а их решения легко отслеживались и понимались. Но они быстро выходили из строя за пределами контролируемых лабораторных условий, испытывая трудности с повседневными сложностями, такими как изменение освещения, шум датчика или объекты, частично скрытые от обзора.

Современные системы, основанные на глубоком обучении, напротив, обрабатывают сложные реальные сцены с гораздо большей точностью, но это имеет свою цену. Им требуются огромные размеченные наборы данных, значительные вычислительные мощности, и они работают как «черные ящики», предоставляя мало информации о том, как они приходят к выводам.

По сути, главная задача этой области сместилась: если ранние системы терпели неудачу из-за неспособности адаптироваться, то современные испытывают трудности из-за сложности обучения, развертывания и доверия к ним. Чтобы преодолеть этот разрыв, недавние инновации делают акцент на генерации синтетических данных, их передаче и обучении с малым количеством примеров для смягчения дефицита данных; аппаратных ускорителях и граничных вычислениях для обработки в реальном времени; а также фреймворки объяснимого искусственного интеллекта или гибридные подходы, основанные на правилах и глубоком обучении, для восстановления прозрачности и доверия.

Среди наиболее актуальных проблем — вычислительная нагрузка и зависимость от оборудования современных систем машинного обучения. Модели глубокого обучения, особенно сверточные нейронные сети, требуют значительных вычислительных ресурсов. В приложениях, чувствительных ко времени, таких как автономное вождение или промышленная автоматизация, где решения должны приниматься в течение миллисекунд, эта вычислительная нагрузка часто приводит к неприемлемой задержке.

Кроме того, многие системы машинного обучения развертываются в условиях ограниченных ресурсов, например, в дронах, мобильных роботах или встроенных датчиках, где энергоэффективность имеет первостепенное значение. Высокое энергопотребление стандартных моделей глубокого обучения ограничивает их применимость в таких условиях, что стимулирует интерес к специализированному оборудованию (например, нейроморфным чипам) и алгоритмической оптимизации, снижающей затраты на вывод результатов.

Тесно связан с этим стратегический вопрос о том, где выполнять вычисления: на устройстве (на периферии) или в облаке. Обработка на периферии минимизирует задержки и повышает конфиденциальность данных, но сталкивается с ограничениями в масштабируемости и вычислительной мощности. Облачные подходы предлагают большую гибкость и вычислительную мощность, но создают требования к пропускной способности, риски безопасности и задержки отклика. Как показано в таблице 5 , многие современные развертывания теперь основаны на гибридных архитектурах «периферия-облако», которые стремятся согласовать противоречивые требования скорости, конфиденциальности, масштабируемости и вычислительной мощности.

Таблица 5. Обработка MV на периферии сети и в облаке.

Критерий	Обработка на краю	Облачная обработка	Компромисс/Примечания
Задержка	Очень низкий уровень шума, в режиме реального времени на устройстве.	Более высокое значение из-за задержек в сети.	Краевые технологии крайне важны для задач, критически важных с точки зрения безопасности (например, автономное вождение).
Вычислительная мощность	Ограниченный набор процессоров (мобильные ЦП, TPU, FPGA)	Практически неограниченные возможности в центрах обработки данных.	Облачные технологии поддерживают сложные и многоуровневые модели.
Потребление энергии	Потребление энергии устройством, если не оптимизировано.	Перераспределение энергии в центры обработки данных	Энергоэффективность на периферии сети достигается только при использовании специально разработанного оборудования.
Конфиденциальность и безопасность	Данные остаются локальными, что обеспечивает более высокий уровень конфиденциальности.	Требуется передача данных, повышенные риски.	Edge соответствует требованиям GDPR и нормам регулирования в сфере здравоохранения.
Масштабируемость	Ограничено емкостью устройства.	Легко масштабируется для множества пользователей/устройств.	Облачные технологии лучше подходят для аналитики в глобальном масштабе.
Расходы	Более высокие первоначальные затраты на аппаратное обеспечение устройства.	Более низкая стоимость устройства, более низкие текущие расходы на обслуживание.	Наилучший выбор зависит от масштаба развертывания.

Зависимость от данных остается серьезным узким местом. Передовые модели машинного обучения обычно опираются на обширные, тщательно размеченные наборы данных, однако такие данные дефицитны в узкоспециализированных областях, таких как медицинская визуализация или выявление редких производственных дефектов.

Создание этих меток не только трудоемко и дорого, но часто требует экспертных знаний, особенно когда тонкие визуальные различия определяют правильное решение. Исследователи обратились к таким обходным путям, как синтетические данные, полуконтролируемое обучение и адаптация предметной области, чтобы уменьшить нагрузку на разметку и расширить охват набора данных. Хотя эти методы многообещающи, они все еще не гарантируют стабильную и надежную работу моделей в условиях непредсказуемых изменений реального мира.

Различия в освещении, ракурсе, фоновом шуме или условиях съемки могут легко подорвать их эффективность. Модели, обученные в контролируемых средах, часто испытывают трудности при развертывании в различных условиях, поскольку они не могут эффективно обобщать данные из-за изменений в освещении, положении объектов и фоновых помех.

Исследователи активно изучают XAI для повышения прозрачности моделей ИИ типа «черный ящик», повышения доверия пользователей и улучшения понимания. Ключевой проблемой является баланс между соответствием модели и правдоподобием для пользователей. Лю и др. исследовали, может ли интеграция знаний о внимании человека в методы XAI на основе значимости для компьютерного зрения улучшить оба аспекта [158].

Они представили FullGrad-CAM и FullGrad-CAM++, две градиентные методики, адаптированные из классификации изображений для обнаружения объектов, генерирующие объяснения, специфичные для объектов. Оценки с использованием внимания человека в качестве меры правдоподобия показали улучшенную правдоподобность объяснений. Однако существующие методы XAI для обнаружения объектов часто создают карты значимости, которые менее точно соответствуют модели, чем карты внимания человека для той же задачи.

Для решения этой проблемы был разработан XAI, управляемый вниманием человека (HAG-XAI). Этот подход уточняет объяснения модели, обучаясь на основе внимания человека, включая обучаемые функции активации и сглаживающие ядра. Эксперименты на наборах данных BDD-100K, MS-COCO и ImageNet показали, что HAG-XAI превосходит существующие методы XAI в обнаружении объектов, повышая правдоподобие, точность и доверие пользователей. Для моделей классификации изображений он улучшил правдоподобие и доверие, хотя и с некоторыми компромиссами в точности [158].

Помимо технических проблем, системы машинного зрения также сталкиваются с вопросами надежности и безопасности. В отличие от человеческого зрения, которое динамически адаптируется к изменениям окружающей среды, модели машинного зрения могут быть очень чувствительны к изменениям входных данных. Небольшие изменения освещения, угла или перекрытия могут привести к значительному снижению точности.

Кроме того, серьезную опасность представляют атаки с участием злоумышленников, когда небольшие, незаметные изменения изображений могут обмануть модель и привести к неправильной классификации. Эта уязвимость особенно актуальна в критически важных для безопасности приложениях, таких как автономное вождение, медицинская диагностика и видеонаблюдение, где одна ошибка классификации может иметь серьезные последствия. Разработка более устойчивых моделей, способных обрабатывать реальные вариации и противостоять манипуляциям со стороны злоумышленников, остается актуальной задачей исследований.

Этические вопросы и вопросы конфиденциальности еще больше усложняют развертывание MV [174]. Распространение распознавания лиц и интеллектуальной видеоаналитики усилило общественный и регуляторный контроль в отношении массового наблюдения и обработки персональных данных. Правовые рамки, такие как GDPR, налагают строгие ограничения на сбор, хранение и использование данных, что усложняет соблюдение требований для разработчиков. Вдобавок к этому, алгоритмическая предвзятость, особенно в системах распознавания лиц, как было показано, непропорционально влияет на недостаточно представленные демографические группы из-за искаженных обучающих данных, что вызывает серьезные опасения по поводу справедливости и равенства.

Стратегии смягчения теперь включают в себя противодействие устранению предвзятости, оптимизацию с учетом справедливости и целевое расширение данных, хотя достижение действительно справедливой производительности остается открытой проблемой. Методы противодействия устранению предвзятости вводят вспомогательные сети, которые удаляют конфиденциальную атрибутивную информацию из изученных представлений, тем самым уменьшая предвзятое принятие решений [175].

Метрики справедливости, такие как демографическое равенство и равные шансы, все чаще используются для оценки и обеспечения справедливых результатов для различных демографических групп [176]. Другие подходы включают оптимизацию с учетом ограничений справедливости, генерацию синтетических данных для недостаточно представленных групп населения и методы адаптации предметной области, которые улучшают обобщение в различных средах [177]. Таким образом, для решения проблемы алгоритмической предвзятости требуются не только разнообразные и репрезентативные наборы данных, но и методы обучения, учитывающие справедливость, а также прозрачность в принятии решений моделью [178].

Стоимость и сложность интеграции еще больше ограничивают широкое внедрение технологий машинного зрения [179]. Разработка высокопроизводительных систем машинного зрения требует дорогостоящего оборудования, включая камеры высокого разрешения, графические процессоры и процессоры, оптимизированные для ИИ [180]. Малые и средние предприятия (МСП) часто считают стоимость непомерно высокой, что затрудняет для них инвестиции в решения машинного зрения.

В производстве поддержание высокой производительности наряду со строгими стандартами качества имеет важное значение. Системы машинного зрения предлагают практическое решение этой проблемы за счет автоматизированного мониторинга процессов и контроля качества. Вуршингер и др. продемонстрировали реальное внедрение в серийное производство, которое объединило трансферное обучение с доступным оборудованием для создания эффективного решения машинного зрения [180]. Их рабочий процесс охватывал весь конвейер, от интеграции оборудования и сбора данных до предварительной обработки, оптимизации модели и оперативного развертывания. Полученная система соответствовала всем заданным критериям производительности и обеспечивала точность на уровне коммерческих платформ машинного зрения [180].

Помимо проблем с моделями и данными, внедрение систем машинного зрения на основе ИИ в существующие промышленные или клинические среды часто оказывается сложным и дорогостоящим [181]. Устаревшая инфраструктура редко проектировалась с учетом интеграции ИИ, а это означает, что обычно требуется значительная модернизация для поддержки современных возможностей машинного зрения. Ситуацию усугубляет то, что меняющиеся нормативные требования в разных секторах и регионах добавляют еще один уровень сложности к внедрению. В разных отраслях и регионах действуют различные правовые рамки, регулирующие применение ИИ и машинного зрения [103].

Например, в медицинской сфере диагностические инструменты на основе ИИ должны пройти строгую проверку, прежде чем их можно будет использовать в клинических условиях [182]. Аналогично, системы машинного зрения для автономных транспортных средств должны соответствовать строгим правилам безопасности, прежде чем они будут одобрены для общественного использования. Поскольку правила регулирования ИИ продолжают развиваться, компании должны оставаться в курсе событий и обеспечивать соответствие требованиям, что может быть как трудоемким, так и ресурсоемким процессом [183].

Практическое внедрение также создает значительные проблемы для использования МВ в реальных условиях. Даже помимо технических и нормативных барьеров, практическое внедрение сопряжено со значительными трудностями.

Преобразование лабораторных прототипов в надежные промышленные или готовые к эксплуатации в полевых условиях системы часто затруднено изменчивостью окружающей среды.

Колебания освещения, температуры, вибрации, пыли или погоды могут ухудшить производительность и потребовать частой перекалибровки. Для обеспечения стабильной работы требуется также постоянное техническое обслуживание: очистка линз, обновление моделей, управление зависимостями программного обеспечения и обеспечение надежности оборудования.

Не менее важна готовность персонала; операторам и техникам часто не хватает подготовки, необходимой для интерпретации выходных данных системы, диагностики неисправностей или интеграции инструментов МВ в существующие рабочие процессы. Без целенаправленного совместного проектирования человеком и машиной даже самые современные системы могут работать неэффективно при масштабировании за пределы контролируемых условий [184].

Решение этих многогранных задач требует скоординированной стратегии, охватывающей технологии, политику и этику. Аппаратные инновации, такие как маломощные ускорители ИИ и нейроморфные процессоры, могут снизить вычислительные и энергетические ограничения [160, 185].

Достижения, ориентированные на данные, такие как активное обучение и синтетические данные, основанные на физических принципах, могут повысить надежность моделей. Между тем, этичное управление ИИ, протоколы смягчения предвзятости и межсекторное сотрудничество между исследователями, регулирующими органами и заинтересованными сторонами отрасли будут иметь важное значение для обеспечения ответственного, инклюзивного и устойчивого внедрения MV.

Несмотря на эти ограничения, технология машинного зрения остается глубоко преобразующей технологией, влияние которой расширяется в сферах здравоохранения, производства, безопасности и автономных систем. Дальнейший прогресс в преодолении существующих ограничений будет иметь решающее значение для создания следующего поколения интеллектуальных, эффективных и этически обоснованных систем машинного зрения. Для справки, все количественные результаты цитируемых исследований, включая экспериментальные условия (лабораторные, имитационные или реальные), собраны в дополнительной таблице S1 .

6. Выводы

Системы машинного зрения переживают глубокий и ускоряющийся сдвиг, обусловленный конвергенцией искусственного интеллекта, периферийных вычислений, нейроморфных чипов и первых подходов, вдохновленных квантовыми технологиями. Системы машинного зрения будущего будут оцениваться не только по скорости или точности; столь же важным будет их прозрачность в рассуждениях, адаптивность к новым ситуациям и достаточная надежность для стабильной работы вне лаборатории.

По мере того, как отрасли стремятся к полной автоматизации, потребность в системах машинного зрения, потребляющих мало энергии, понимающих окружающую среду и обучающихся на основе опыта, будет только усиливаться. Реализация этого видения означает выход за рамки изолированных технических достижений. Это требует подлинного сотрудничества между дисциплинами, которые долгое время работали параллельно, включая оптику, робототехнику, информатику и даже этику.

Только благодаря такой интеграции системы машинного зрения смогут превратиться из пассивного наблюдателя в интеллектуального партнера в принятии решений в реальном мире. Но на этом пути стоят значительные препятствия. Обеспечение стабильной работы означает решение давних технических проблем: точную калибровку датчиков, обработку видео высокого разрешения с минимальной задержкой и поддержание точности, несмотря на изменение освещения, артефакты движения или помехи окружающей среды.

Помимо этого, существуют реальные ограничения. К ним относятся дорогостоящее оборудование, сложная интеграция в существующие рабочие процессы и нехватка инженеров и техников, способных устанавливать, настраивать и устранять неполадки в этих системах. Если эти практические и экономические барьеры не будут устранены, технология MV рискует остаться недоступной для небольших производителей и предприятий с ограниченными ресурсами.

Не менее актуальны этические вопросы, возникающие в связи с внедрением автономных систем машинного зрения в общественных местах, на рабочих местах и в объектах критической инфраструктуры. Модели, обученные на нерепрезентативных данных, недостаточно проверенных алгоритмах или «черноящичных» алгоритмах принятия решений, могут приводить к ошибкам с реальными последствиями.

Этот риск особенно высок в таких чувствительных областях, как здравоохранение, правоохранительные органы или транспорт. Поэтому укрепление общественного доверия зависит не только от технических характеристик; оно требует соблюдения обязательных стандартов справедливости, механизмов подотчетности и инклюзивного управления с участием инженеров, регулирующих органов и гражданского общества.

Только благодаря такому целенаправленному межсекторальному сотрудничеству системы машинного зрения смогут в полной мере реализовать свой потенциал: не просто как средство повышения производительности, но как ответственная технология, служащая как промышленности, так и обществу.

Сокращения

В данном рукописном тексте используются следующие сокращения:

И.Е.	Искусственный интеллект
Сверточные нейронные сети	Сверточные нейронные сети
резюме	Компьютерное зрение
DL	Глубинное обучение
ML	Машинное обучение
MV	Машинное зрение

Дополнительные данные

Смотри файл по ссылке.

Литература

History of Machine Vision. Available online: ссылка
Zhao, R.; Yang, L. Research and Development of Machine Vision Algorithm Performance Evaluation System in Complex Scenes. J. Phys. Conf. Ser. 2023, 2562, 012022.
Heyrman, B.; Paindavoine, M.; Schmit, R.; Letellier, L.; Collette, T. Smart camera design for intensive embedded computing. Real-Time Imaging 2005, 11, 282–289.
Shi, Y.; Raniga, P.; Mohamed, I. A Smart Camera for Multimodal Human Computer Interaction. In Proceedings of the IEEE International Symposium on Consumer Electronics, St Petersburg, Russia, 28 June–1 July 2006.
Lee, K.F.; Tang, B. Image Processing for In-vehicle Smart Cameras. In Proceedings of the IEEE International Symposium on Consumer Electronics, St Petersburg, Russia, 28 June–1 July 2006.
Kitcher, P. Marr’s Computational Theory of Vision. Philos. Sci. 1988, 55, 1–24.
Machine Vision: 9 Important Aspects to See Beyond Human Limitations. Available online: ссылка(accessed on 15 February 2025).
Javaid, M.; Haleem, A.; Singh, R.P.; Ahmed, M. Computer vision to enhance healthcare domain: An overview of features, implementation, and opportunities. Intell. Pharm. 2024, 2, 792–803.
Palanikumar, K.; Natarajan, E.; Ponshanmugakumar, A. Chapter 6—Application of machine vision technology in manufacturing industries—A study. In Machine Intelligence in Mechanical Engineering, 1st ed.; Palanikumar, K., Natarajan, E., Ramesh, S., Paulo Davim, J., Eds.; Woodhead Publishing: Cambridge, UK, 2024; Volume 1, pp. 91–122.
Is Machine Vision Surpassing the Human Eye for Accuracy? Available online: ссылка(accessed on 2 April 2025).
Kurada, S.; Bradley, C. A review of machine vision sensors for tool condition monitoring. Comput. Ind. 1997, 34, 55–72.
Charan, A.; Karthik Chowdary, C.; Komal, P. The Future of Machine Vision in Industries-A systematic review. In Proceedings of the IOP, Conf Ser: Mater Sci Eng, London, UK, 14 July 2022.
Mascagni, P.; Alapatt, D.; Sestini, L.; Altieri, M.S.; Madani, A.; Watanabe, Y.; Alseidi, A.; Redan, J.A.; Alfieri, S.; Costamagna, G.; et al. Computer vision in surgery: From potential to clinical value. Npj Digit. Med. 2022, 5, 163.
Varoquaux, G.; Cheplygina, V. Machine learning for medical imaging: Methodological failures and recommendations for the future. Npj Digit. Med. 2022, 5, 48.
Esteva, A.; Chou, K.; Yeung, S.; Naik, N.; Madani, A.; Mottaghi, A.; Liu, Y.; Topol, E.; Dean, J.; Socher, R. Deep learning-enabled medical computer vision. Npj Digit. Med. 2021, 4, 5.
Litjens, G.; Kooi, T.; Bejnordi, B.E.; Setio, A.A.A.; Ciompi, F.; Ghafoorian, M.; van der Laak, J.A.W.M.; van Ginneken, B.; Sánchez, C.I. A survey on deep learning in medical image analysis. Med. Image Anal. 2017, 42, 60–88.
Toolan, C.; Palmer, K.; Al-Rawi, O.; Ridgway, T.; Modi, P. Robotic mitral valve surgery: A review and tips for safely negotiating the learning curve. J. Thorac. Dis. 2021, 13, 1971–1981.
Gajjar, H.; Sanyal, S.; Shah, M. A comprehensive study on lane detecting autonomous car using computer vision. Expert. Syst. Appl. 2023, 233, 120929.
Janai, J.; Güney, F.; Behl, A.; Geiger, A. Computer Vision for Autonomous Vehicles: Problems, Datasets and State of the Art. Found. Trends ®Comput. Graph. Vis. 2020, 12, 1–308.
The Combined Power of Machine Vision Technology and Video Management Systems. Available online: ссылка(accessed on 2 April 2025).
Karthikeyan, R.; Karthik, S.; Saurav Menon, M. Vision based Intelligent Smart Security System. In Proceedings of the International Conference on Advancements in Electrical, Electronics, Communication, Computing and Automation (ICAECA), Coimbatore, India, 8–9 October 2021.
Sivarai, D.; Rathika, P.D.; Vaishnavee, K.R.; Easwar, K.G.; Saranyazowri, P.; Hariprakash, R. Machine Vision based Intelligent Surveillance System. In Proceedings of the International Conference on Intelligent Systems for Communication, IoT and Security (ICISCoIS), Coimbatore, India, 9–11 February 2023.
Goodfellow, I.J.; Shlens, J.; Szegedy, C. Explaining and Harnessing Adversarial Examples. In Proceedings of the ICLR, San Diego, CA, USA, 7–9 May 2015.
Machine Vision a Growing Market Driven by Industrial and Automation Applications. Available online: ссылка (accessed on 15 February 2025).
Javaid, M.; Haleem, A.; Singh, R.P.; Rab, S.; Suman, R. Exploring impact and features of machine vision for progressive
Wu, W.-Q.; Wang, C.-F.; Han, S.-T.; Pan, C.-F. Recent advances in imaging devices: Image sensors and neuromorphic vision sensors. Rare Met. 2024, 43, 5487–5515.
Sharma, I.; Vanshika. Evolution of Neuromorphic Computing with Machine Learning and Artificial Intelligence. In Proceedings of the IEEE 3rd Global Conference for Advancement in Technology (GCAT), Bangalore, India, 7–9 October 2022.
Gill, S.S.; Buyya, R. Transforming Research with Quantum Computing. J. Econ. Technol. 2026, 4, 1–8.
Villalba-Diez, J.; Ordieres-Meré, J.; González-Marcos, A.; Larzabal, A.S. Quantum Deep Learning for Steel Industry Computer Vision Quality Control. IFAC-Pap. 2022, 55, 337–342.
Viéville, T.; Clergue, E.; Enciso, R.; Mathieu, H. Experimenting with 3D vision on a robotic head. Robot. Auton. Syst. 1995, 14, 1–27.
AI at the Edge: Transforming Machine Vision into Reality. Available online: ссылка(accessed on 14 February 2025).
Zhong, S.; Liu, Y.; Chen, Q. Visual orientation inhomogeneity based scale-invariant feature transform. Expert. Syst. Appl. 2015, 42, 5658–5667.
Vardhan, A.H.; Verma, N.K.; Sevakula, R.K.; Salour, A. Unsupervised approach for object matching using Speeded Up Robust Features. In Proceedings of the Applied Imagery Pattern Recognition Workshop (AIPR), Washington, DC, USA, 10–12 October 2015.
Gao, Q.; Lim, S.; Jia, X. Hyperspectral Image Classification Using Convolutional Neural Networks and Multiple Feature Learning. Remote Sens. 2018, 10, 299.
Tempelaere, A.; De Ketelaere, B.; He, J.; Kalfas, I.; Pieters, M.; Saeys, W.; Van Belleghem, R.; Van Doorselaer, L.; Verboven, P.; Nicolaï, B.M. An introduction to artificial intelligence in machine vision for postharvest detection of disorders in horticultural products. Postharvest Biol. Technol. 2023, 206, 112576.
Matsuzaka, Y.; Yashiro, R. AI-Based Computer Vision Techniques and Expert Systems. AI 2023, 4, 289–302.
Voulodimos, A.; Doulamis, N.; Doulamis, A.; Protopapakis, E. Deep Learning for Computer Vision: A Brief Review. Comput. Intell. Neurosci. 2018, 2018, 7068349.
Khan, A.I.; Al-Habsi, S. Machine Learning in Computer Vision. Procedia Comput. Sci. 2020, 167, 1444–1451.
Deng, F.; Huang, J.; Yuan, X.; Cheng, C.; Zhang, L. Performance and efficiency of machine learning algorithms for analyzing rectangular biomedical data. Lab. Investig. 2021, 101, 430–441.
Dhanush, G.; Khatri, N.; Kumar, S.; Shukla, P.K. A comprehensive review of machine vision systems and artificial intelligence algorithms for the detection and harvesting of agricultural produce. Sci. Afr. 2023, 21, e01798.
Kääriäinen, T.; Seppä, J. 3D camera based on laser light absorption by atmospheric oxygen at 761 nm. Opt. Express 2024, 32, 6342–6349.
Shults, R.; Levin, E.; Aukazhiyeva, Z.; Pavelka, K.; Kulichenko, N.; Kalabaev, N.; Sagyndyk, M.; Akhmetova, N. A Study of the Accuracy of a 3D Indoor Camera for Industrial Archaeology Applications. Heritage 2023, 6, 6240–6267.
Huang, T.; Zheng, Y.; Yu, Z.; Chen, R.; Li, Y.; Xiong, R.; Ma, L.; Zhao, J.; Dong, S.; Zhu, L.; et al. 1000× Faster Camera and Machine Vision with Ordinary Devices. Engineering 2023, 25, 110–119.
Yang, Y.; Meng, X.; Gao, M. Vision System of Mobile Robot Combining Binocular and Depth Cameras. J. Sens. 2017, 2017, 4562934.
Sergiyenko, O.; Tyrsa, V.; Flores-Fuentes, W.; Rodriguez-Quiñonez, J.; Mercorelli, P. Machine Vision Sensors. J. Sens. 2018, 2018, 3202761.
Silva, C.A.d.S.; Paladini, E.P. Smart Machine Vision System to Improve Decision-Making on the Assembly Line. Machines 2025, 13, 98.
Gierecker, J.; Schoepflin, D.; Schmedemann, O.; Schüppstuhl, T. Configuration and Enablement of Vision Sensor Solutions Through a Combined Simulation Based Process Chain. In Proceedings of the Annals of Scientific Society for Assembly, Handling and Industrial Robotics, Garbsen, Germany, 20 December 2021.
Lim, S.-J.; Leem, D.-S.; Park, K.-B.; Kim, K.-S.; Sul, S.; Na, K.; Lee, G.H.; Heo, C.-J.; Lee, K.-H.; Bulliard, X.; et al. Organic-on-silicon complementary metal–oxide–semiconductor colour image sensors. Sci. Rep. 2015, 5, 7708.
Imanbekova, M.; Saridag, A.M.; Kahraman, M.; Liu, J.; Caglayan, H.; Wachsmann-Hogiu, S. Complementary Metal-Oxide-Semiconductor-Based Sensing Platform for Trapping, Imaging, and Chemical Characterization of Biological Samples. ACS Appl. Opt. Mater. 2023, 1, 329–339.
Lesser, M. 3-Charge coupled device (CCD) image sensors. In High Performance Silicon Imaging, 1st ed.; Durini, D., Ed.; Woodhead Publishing: Cambridge, UK, 2014; Volume 1, pp. 78–97.
Chen, H.; Cui, W. A comparative analysis between active structured light and multi-view stereo vision technique for 3D reconstruction of face model surface. Optik 2020, 206, 164190.
Karim, A.; Andersson, J.Y. Infrared detectors: Advances, challenges and new technologies. In Proceedings of the IOP Conference Series: Materials Science Engineering, Bandung, Indonesia, 8–10 March 2013.
Askar, C.; Sternberg, H. Use of Smartphone Lidar Technology for Low-Cost 3D Building Documentation with iPhone 13 Pro: A Comparative Analysis of Mobile Scanning Applications. Geomatics 2023, 3, 563–579.
Cremons, D.R. The future of lidar in planetary science. Front. Remote Sens. 2022, 3, 1042460.
Khonina, S.N.; Kazanskiy, N.L.; Oseledets, I.V.; Nikonorov, A.V.; Butt, M.A. Synergy between Artificial Intelligence and Hyperspectral Imagining—A Review. Technologies 2024, 12, 163.
Hou, B.; Chen, Q.; Yi, L.; Sellin, P.; Sun, H.-T.; Wong, L.J.; Lui, X. Materials innovation and electrical engineering in X-ray detection. Nat. Rev. Electr. Eng. 2024, 1, 639–655.
Bhargava, A.; Sachdeva, A.; Sharma, K.; Alsharif, M.H.; Uthansakul, P.; Uthansakul, M. Hyperspectral imaging and its applications: A review. Heliyon 2024, 10, e33208.
Khan, M.A.; Sun, J.; Li, B.; Przybysz, A.; Kosel, J. Magnetic sensors-A review and recent technologies. Eng. Res. Express 2021, 3, 022005.
Goodman, D.S. Illumination in machine vision. Opt. Soc. Am. Annu. Meet. 1991, 1, WB2.
Yan, M.T.; Surgenor, B.W. A Quantitative Study of Illumination Techniques for Machine Vision Based Inspection. In Proceedings of the International Manufacturing Science and Engineering Conference (MSEC), Corvallis, OR, USA, 13–17 June 2011.
Kumar, V.; Sudheesh Kumar, C.P. Investigation of the influence of coloured illumination on surface texture features: A Machine vision approach. Measurement 2020, 152, 107297.
Chen, J.; Wang, M.; Hsia, C.-H. Artificial Intelligence and Machine Learning in Sensing and Image Processing. Sensors 2025, 25, 1870.
Huang, L.; Yao, C.; Zhang, L.; Luo, S.; Ying, F.; Ying, W. Enhancing computer image recognition with improved image algorithms. Sci. Rep. 2024, 14, 13709.
Huang, C.; Lim, C.-C.; Ming, C. Comparison of image processing algorithms and neural networks in machine vision inspection. Comput. Ind. Eng. 1992, 23, 105–108.
Lu, Y.; Duanmu, L.; Zhai, Z.; Wang, Z. Application and improvement of Canny edge-detection algorithm for exterior wall hollowing detection using infrared thermal images. Energy Build. 2022, 274, 112421.
Lynn, N.D.; Sourav, A.I.; Santoso, A.J. Implementation of Real-Time Edge Detection Using Canny and Sobel Algorithms. In Proceedings of the IOP Conference Series: Materials Science and Engineering, Bristol, UK, 13 November 2021.
Feng, Y.; Zhao, H.; Li, X.; Zhang, X.; Li, H. A multi-scale 3D Otsu thresholding algorithm for medical image segmentation. Digit. Signal Process. 2017, 60, 186–199.
Zhu, N.; Wang, G.; Yang, G.; Dai, W. A Fast 2D Otsu Thresholding Algorithm Based on Improved Histogram. In Proceedings of the 2009 Chinese Conference on Pattern Recognition, Nanjing, China, 4–6 November 2009.
Bansal, M.; Kumar, M.; Kumar, M. 2D object recognition: A comparative analysis of SIFT, SURF and ORB feature descriptors. Multimed. Tools Appl. 2021, 80, 18839–18857.
Tareen, S.A.K.; Saleem, Z. A comparative analysis of SIFT, SURF, KAZE, AKAZE, ORB, and BRISK. In Proceedings of the 2018 International Conference on Computing, Mathematics and Engineering Technologies (iCoMET), Sukkur, Pakistan, 3–4 March 2018.
Van Droogenbroeck, M.; Talbot, H. Fast computation of morphological operations with arbitrary structuring elements. Pattern Recognit. Lett. 1996, 17, 1451–1460.
Lee, Y.H. Algorithms for Mathematical Morphological Operations with Flat Top Structuring Elements. In Proceedings of the Applications of Digital Image Processing VIII, SPIE, San Diego, CA, USA, 20–22 August 1985.
Gupta, A.; Sintorn, I.-M. Efficient high-resolution template matching with vector quantized nearest neighbour fields. Pattern Recognit. 2024, 151, 110386.
Bergamini, L.; Sposato, M.; Peruzzini, M.; Vezzani, R.; Pellicciari, M. Deep Learning-Based Method for Vision-Guided Robotic Grasping of Unknown Objects. In Proceedings of the 25th ISPE Inc. International Conference on Transdisciplinary Engineering, Modena, Italy, 6–9 July 2018; Volume 1, pp. 281–290.
Walia, S. Light-operated On-chip Autonomous Vision Using Low-dimensional Material Systems. Adv. Mater. Technol. 2022, 7, 2101494.
Hunter, D.B. Machine Vision Techniques for High Speed Videography. In Proceedings of the High-Speed Photography, Videography, and Photonics II, SPIE, Bellingham, WA, USA, 1–2 November 1984.
Are High-Resolution Event Cameras Really Needed? Available online: ссылка (accessed on 29 March 2022).
Kazanskiy, N.L.; Khonina, S.N.; Butt, M.A. Transforming high-resolution imaging: A comprehensive review of advances in metasurfaces and metalenses. Mater. Today Phys. 2025, 50, 101628.
Cherian, A.K.; Poovammal, E. Classification of remote sensing images using CNN. In Proceedings of the IOP Conference Series: Materials Science and Engineering, Bristol, UK, 13 November 2021.
Firsov, N.; Myasnikov, E.; Lobanov, V.; Khabibullin, R.; Kazanskiy, N.; Khonina, S.; Butt, M.A.; Nikonorov, A. HyperKAN: Kolmogorov–Arnold Networks Make Hyperspectral Image Classifiers Smarter. Sensors 2024, 24, 7683.
Krichen, M. Convolutional Neural Networks: A Survey. Computers 2023, 12, 151.
Tulbure, A.-A.; Tulbure, A.-A.; Dulf, E.-H. A review on modern defect detection models using DCNNs–Deep convolutional neural networks. J. Adv. Res. 2022, 35, 33–48.
Lawrence, S.; Giles, C.L.; Tsoi, A.C.; Back, A.D. Face recognition: A convolutional neural-network approach. IEEE Trans. Neural Netw. 1997, 8, 98–113.
Sharma, N.; Jain, V.; Mishra, A. An Analysis Of Convolutional Neural Networks For Image Classification. Procedia Comput. Sci. 2018, 132, 377–384.
Benefits and Applications of AI-Powered Machine Vision. Available online: ссылка (accessed on 29 March 2025).
Van der Velden, B.H.M.; Kuijf, H.J.; Gilhuijs, K.G.A.; Viergever, M.A. Explainable artificial intelligence (XAI) in deep learning-based medical image analysis. Med. Image Anal. 2022, 79, 102470.
Li, J.Q.; Dukes, P.V.; Lee, W.; Sarkis, M.; Vo-Dinh, T. Machine learning using convolutional neural networks for SERS analysis of biomarkers in medical diagnostics. J. Raman Spectrosc. 2022, 53, 2044–2057.
Lodhi, S.K.; Gill, A.Y.; Hussain, I. AI-Powered Innovations in Contemporary Manufacturing Procedures: An Extensive Analysis. Int. J. Multidiscip. Sci. Arts 2024, 3, 15–25.
Rashid, A.B.; Kausik, M.A.K. AI revolutionizing industries worldwide: A comprehensive overview of its diverse applications. Hybrid. Adv. 2024, 7, 100277.
Aggarwal, C.C. Outlier Analysis, 2nd ed.; Springer International Publishing: Cham, Switzerland, 2017; p. 481.
Khalifa, M.; Albadawy, M. AI in diagnostic imaging: Revolutionising accuracy and efficiency. Comput. Methods Programs Biomed. Update 2024, 5, 100146.
Al-Antari, M.A. Artificial Intelligence for Medical Diagnostics—Existing and Future AI Technology! Diagnostics 2023, 13, 688.
AI in Logistics: Uncovering More Major Benefits and Use Cases. Available online: ссылка (accessed on 31 March 2025).
Ghonasgi, K.; Kaveny, K.J.; Langlois, D.; Sigurðarson, L.D.; Swift, T.A.; Wheeler, J.; Young, A.J. The case against machine vision for the control of wearable robotics: Challenges for commercial adoption. Sci. Robot. 2025, 10, eadp5005.
Mercedes-Benz Accelerates AI and Robotics at Berlin-Marienfelde, Transforming Digital Production with Humanoid Robots and Next-Generation Automation Technologies. Available online: ссылка (accessed on 31 March 2025).
BMW Taps Humanoid Startup Figure to Take on Tesla’s Robot. Available online: ссылка (accessed on 31 March 2025).
How Autonomous Robots are Transforming Logistics. Available online: ссылка (accessed on 31 March 2025).
Tan, H. Line inspection logistics robot delivery system based on machine vision and wireless communication. In Proceedings of the 2020 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery (CyberC), Chongqing, China, 29–30 October 2020.
Valero, S.; Martinez, J.C.; Montes, A.M.; Marin, C.; Bolanos, R.; Alvarez, D. Machine vision-assisted design of end effector pose in robotic mixed depalletizing of heterogeneous cargo. Sensors 2025, 25, 1137.
Fang, J.; Lu, X.; Feng, X.; Zhang, Y. Research into an intelligent logistics handling robot based on front-end machine vision. In Proceedings of the 2024 5th International conference on computer engineering and application (ICCEA), Hangzhou, China, 12–14 April 2024.
Sharma, K.; Shivandu, S.K. Integrating artificial intelligence and Internet of Things (IoT) for enhanced crop monitoring and management in precision agriculture. Sens. Int. 2024, 5, 100292.
Guebsi, R.; Mami, S.; Chokmani, K. Drones in Precision Agriculture: A Comprehensive Review of Applications, Technologies, and Challenges. Drones 2024, 8, 686.
Profili, A.; Magherini, R.; Servi, M.; Spezia, F.; Gemmiti, D.; Volpe, Y. Machine vision system for automatic defect detection of ultrasound probes. Int. J. Adv. Manuf. Technol. 2024, 135, 3421–3435.
Li, L.; Li, S.; Wang, W.; Zhang, J.; Sun, Y.; Deng, Q.; Zheng, T.; Lu, J.; Gao, W.; Yang, M.; et al. Adaptative machine vision with microsecond-level accurate perception beyond human retina. Nat. Commun. 2024, 15, 6261.
Dodda, A.; Jayachandran, D.; Subbulakshmi Radhakrishnan, S.; Pannone, A.; Zhang, Y.; Trainor, N.; Redwing, J.M.; Das, S. Bioinspired and Low-Power 2D Machine Vision with Adaptive Machine Learning and Forgetting. ACS Nano 2022, 16, 20010–20020.
Ibn-Khedher, H.; Laroui, M.; Mabrouk, M.B.; Moungla, H.; Afifi, H.; Oleari, A.N. Edge Computing Assisted Autonomous Driving Using Artificial Intelligence. In Proceedings of the 2021 International Wireless Communications and Mobile Computing (IWCMC), Beijing, China, 28 June–2 July 2021.
Shi, W.; Cao, J.; Zhang, Q.; Li, Y.; Xu, L. Edge Computing: Vision and Challenges. IEEE Internet Things J. 2016, 3, 637–646.
Verde Romero, D.A.; Villalvazo Laureano, E.; Jiménez Betancourt, R.O.; Navarro Álvarez, E. An open source IoT edge-computing system for monitoring energy consumption in buildings. Results Eng. 2024, 21, 101875.
Manogaran, N.; Nandagopal, M.; Abi, N.E.; Seerangan, K.; Balusamy, B.; Selvarajan, S. Integrating meta-heuristic with named data networking for secure edge computing in IoT enabled healthcare monitoring system. Sci. Rep. 2024, 14, 21532.
Zacchigna, F.G. Methodology for CNN Implementation in FPGA-Based Embedded Systems. IEEE Embed. Syst. Lett. 2023, 15, 85–88.
Vasile, C.-E.; Ulmămei, A.-A.; Bîră, C. Image Processing Hardware Acceleration—A Review of Operations Involved and Current Hardware Approaches. J. Imaging 2024, 10, 298.
Sailesh, M.; Selvakumar, K.; Narayanan, P. A novel framework for deployment of CNN models using post-training quantization on microcontroller. Microprocess. Microsyst. 2022, 94, 104634.
Canpolat Şahin, M.; Kolukısa Tarhan, A. Evaluation and Selection of Hardware and AI Models for Edge Applications: A Method and A Case Study on UAVs. Appl. Sci. 2025, 15, 1026.
Wu, L.; Xiao, G.; Huang, D.; Zhang, X.; Ye, D.; Weng, H. Edge Computing-Based Machine Vision for Non-Invasive and Rapid Soft Sensing of Mushroom Liquid Strain Biomass. Agronomy 2025, 15, 242.
Akundi, A.; Reyna, M. A Machine Vision Based Automated Quality Control System for Product Dimensional Analysis. Procedia Comput. Sci. 2021, 185, 127–134.
Sioma, A. Vision System in Product Quality Control Systems. Appl. Sci. 2023, 13, 751.
Ivaschenko, A.; Avsievich, V.; Reznikov, Y.; Belikov, A.; Turkova, V.; Sitnikov, P.; Surnin, O. Intelligent Machine Vision Implementation for Production Quality Control. In Proceedings of the 2023 34th Conference of Open Innovations Association (FRUCT), Riga, Latvia, 15–17 November 2023.
Xiao, Z.; Wang, J.; Han, L.; Guo, S.; Cui, Q. Application of Machine Vision System in Food Detection. Front. Nutr. 2022, 9, 888245.
Zhao, Z.; Wang, R.; Liu, M.; Bai, L.; Sun, Y. Application of machine vision in food computing: A review. Food Chem. 2025, 463, 141238.
Tzampazaki, M.; Zografos, C.; Vrochidou, E.; Papakostas, G.A. Machine Vision—Moving from Industry 4.0 to Industry 5.0. Appl. Sci. 2024, 14, 1471.
Gao, X. Artificial intelligence applied to supermarket intelligent replenishment robot based on machine vision. In Proceedings of the 2023 Asia-Europe Conference on Electronics, Data Processing and Informatics (ACEDPI), Prague, Czech Republic, 17–19 April 2023.
Yang, R.; Jiang, Q. Research on the application of machine vision technology in industrial automation assembly line. In Proceedings of the International Conference on Mechatronics and Intelligent Control (ICMIC 2024), Wuhan, China, 20–22 September 2024.
Ali, Y.; Shah, S.W.; Arif, A.; Tlija, M.; Siddiqi, M.R. Intelligent Framework Design for Quality Control in Industry 4.0. Appl. Sci. 2024, 14, 7726.
Rana, M.; Bhushan, M. Machine learning and deep learning approach for medical image analysis: Diagnosis to detection. Multimed. Tools Appl. 2023, 82, 26731–26769.
Pinto-Coelho, L. How Artificial Intelligence Is Shaping Medical Imaging Technology: A Survey of Innovations and Applications. Bioengineering 2023, 10, 1435.
Hassan, C.; Spadaccini, M.; Iannone, A.; Maselli, R.; Jovani, M.; Chandrasekar, V.T.; Antonelli, G.; Yu, H.; Areia, M.; Dinis-Ribeiro, M.; et al. Performance of artificial intelligence in colonoscopy for adenoma and polyp detection: A systematic review and meta-analysis. Gastrointest. Endosc. 2021, 93, 77–85.
Van Leeuwen, K.G.; Schalekamp, S.; Rutten, M.J.C.M.; van Ginneken, B.; de Rooij, M. Artificial intelligence in radiology: 100 commercially available products and their scientific evidence. Eur. Radiol. 2021, 31, 3797–3804.
Penza, V.; De Momi, E.; Enayati, N.; Chupin, T.; Ortiz, J.; Mattos, L.S. EnViSoRS: Enhanced Vision System for Robotic Surgery. A User-Defined Safety Volume Tracking to Minimize the Risk of Intraoperative Bleeding. Front. Robot. AI 2017, 4, 00015.
Rosen, C.A. Machine Vision and Robotics: Industrial Requirements. In Computer Vision and Sensor-Based Robots, 1st ed.; Doll, G.G., Rossol, L., Eds.; Springer: New York, NY, USA, 1979; Volume 1, pp. 3–22.
The Use of Machine Vision for Robot Guidance Offers New Possibilities. Available online: ссылка (accessed on 1 April 2025).
Das, S.; Das, I.; Shaw, R.N.; Ghosh, A. Chapter Seven-Advance machine learning and artificial intelligence applications in service robot. Artif. Intell. Future Gener. Robot. 2021, 1, 83–91.
Do, Y.; Kim, G.; Kim, J. Omnidirectional vision system developed for a home service robot. In Proceedings of the 2007 14th International Conference on Mechatronics and Machine Vision in Practice, Xiamen, China, 4–6 December 2007.
Grigorescu, S.M.; Prenzel, O.; Gräser, A. Model driven developed machine vision system for service robotics. In Proceedings of the 2010 12th International Conference on Optimization of Electrical and Electronic Equipment, Brasov, Romania, 20–22 May 2010.
Wang, L.; Schmidt, B.; Nee, A.Y.C. Vision-guided active collision avoidance for human-robot collaborations. Manuf. Lett. 2013, 1, 5–8.
Wei, Z.; Tian, F.; Qiu, Z.; Yang, Z.; Zhan, R.; Zhan, J. Research on Machine Vision-Based Control System for Cold Storage Warehouse Robots. Actuators 2023, 12, 334.
Abba, S.; Bizi, A.M.; Lee, J.-A.; Bakouri, S.; Crespo, M.L. Real-time object detection, tracking, and monitoring framework for security surveillance systems. Heliyon 2024, 10, e34922.
Attard, L.; Farrugia, R.A. Vision based surveillance system. In Proceedings of the 2011 IEEE EUROCON-International Conference on Computer as a Tool, Lisbon, Portugal, 27–29 April 2011.
Nurnoby, M.F.; Helmy, T. A Real-Time Deep Learning-based Smart Surveillance Using Fog Computing: A Complete Architecture. Procedia Comput. Sci. 2023, 218, 1102–1111.
Nigam, R.; Kundu, A.; Yu, X.; Saniie, J. Machine Vision Surveillance System-Artificial Intelligence For COVID-19 Norms. In Proceedings of the 2022 IEEE International Conference on Electro Information Technology (eIT), Mankato, MN, USA, 19–21 May 2022.
Khan, H.; Thakur, J.S. Smart traffic control: Machine learning for dynamic road traffic management in urban environments. Multimed. Tools Appl. 2024, 84, 10321–10345.
Zhang, Y. Safety Management of Civil Engineering Construction Based on Artificial Intelligence and Machine Vision Technology. Adv. Civ. Eng. 2021, 2021, 1–14.
Ghazal, S.; Munir, A.; Qureshi, W.S. Computer vision in smart agriculture and precision farming: Techniques and applications. Artif. Intell. Agric. 2024, 13, 64–83.
Shin, J.; Mahmud, M.S.; Rehman, T.U.; Ravichandran, P.; Heung, B.; Chang, Y.K. Trends and Prospect of Machine Vision Technology for Stresses and Diseases Detection in Precision Agriculture. AgriEngineering 2023, 5, 20–39.
Kim, Y.; Glenn, D.M.; Park, J.; Ngugi, H.K.; Lehman, B.L. Hyperspectral image analysis for water stress detection of apple trees. Comput. Electron. Agric. 2011, 77, 155–160.
Paes de Melo, B.; Carpinetti, P.d.A.; Fraga, O.T.; Rodrigues-Silva, P.L.; Fioresi, V.S.; de Camargos, L.F.; Flores da Silva Ferreira, M. Abiotic Stresses in Plants and Their Markers: A Practice View of Plant Stress Responses and Programmed Cell Death Mechanisms. Plants 2022, 11, 1100.
Satheeshkumar, S.K.; Paolini, C.; Sarkar, M. Subsurface Heat stress detection in plants using machine learning regression models. In Proceedings of the 2023 International Conference on Intelligent Computing, Communication, Networking and Services (ICCNS), Valencia, Spain, 19–22 June 2023.
Tian, Z.; Ma, W.; Yang, Q.; Duan, F. Application status and challenges of machine vision in plant factory—A review. Inf. Process. Agric. 2022, 9, 195–211.
Walsh, J.J.; Mangina, E.; Negrão, S. Advancements in Imaging Sensors and AI for Plant Stress Detection: A Systematic Literature Review. Plant Phenomics 2024, 6, 0153.
Foucher, P.; Revollon, P.; Vigouroux, B.; Chassériaux, G. Morphological Image Analysis for the Detection of Water Stress in Potted Forsythia. Biosyst. Eng. 2004, 89, 131–138.
Chung, S.; Breshears, L.E.; Yoon, J.-Y. Smartphone near infrared monitoring of plant stress. Comput. Electron. Agric. 2018, 154, 93–98.
Ghosal, S.; Blystone, D.; Singh, A.K.; Ganapathysubramanian, B.; Singh, A.; Sarkar, S. An explainable deep machine vision framework for plant stress phenotyping. Proc. Natl. Acad. Sci. USA 2018, 115, 4613–4618.
Karthickmanoj, R.; Sasilatha, T.; Padmapriya, J. Automated machine learning based plant stress detection system. Mater. Today Proc. 2021, 47, 1887–1891.
De Lucia, G.; Lapegna, M.; Romano, D. Towards explainable AI for hyperspectral image classification in Edge Computing environments. Comput. Electr. Eng. 2022, 103, 108381.
Pfenning, A.; Yan, X.; Gitt, S.; Fabian, J.; Lin, B.; Witt, D.; Afifi, A.; Azem, A.; Darcie, A.; Wu, J.; et al. A perspective on silicon photonic quantum computing with spin qubits. In Proceedings of the Silicon Photonics XVII, San Francisco, CA, USA, 22–24 February 2022.
El Srouji, L.; Krishnan, A.; Ravichandran, R.; Lee, Y.; On, M.; Xiao, X.; Ben Yoo, S.J. Photonic and optoelectronic neuromorphic computing. APL Photonics 2022, 7, 051101.
Yang, W.; Wei, Y.; Wei, H.; Chen, Y.; Huang, G.; Li, X.; Lo, R.; Yao, N.; Waang, X.; Gu, X.; et al. Survey on Explainable AI: From Approaches, Limitations and Applications Aspects. Hum.-Cent. Intell. Syst. 2023, 3, 161–188.
Przybył, K. Explainable AI: Machine Learning Interpretation in Blackcurrant Powders. Sensors 2024, 24, 3198.
Liu, G.; Zhang, J.; Chan, A.B.; Hsiao, J.H. Human attention guided explainable artificial intelligence for computer vision models. Neural Netw. 2024, 177, 106392.
Shchanikov, S.; Bordanov, I.; Kucherik, A.; Gryaznov, E.; Mikhaylov, A. Neuromorphic Analog Machine Vision Enabled by Nanoelectronic Memristive Devices. Appl. Sci. 2023, 13, 13309.
Wang, H.; Sun, B.; GE, S.S.; Su, J.; Jin, M.L. On non-von Neumann flexible neuromorphic vision sensors. Npj Flex. Electron. 2024, 8, 28.
Imran, A.; He, X.; Tabassum, H.; Zhu, Q.; Dastgeer, G.; Liu, J. Neuromorphic Vision Sensor driven by Ferroelectric HfAlO. Mater. Today Nano 2024, 26, 100473.
Schuman, C.D.; Kulkarni, S.R.; Parsa, M.; Mitchell, J.P.; Date, P.; Kay, B. Opportunities for neuromorphic computing algorithms and applications. Nat. Comput. Sci. 2022, 2, 10–19.
Subramaniam, A. A neuromorphic approach to image processing and machine vision. In Proceedings of the 2017 Fourth International Conference on Image Information Processing (ICIIP), Shimla, India, 21–23 December 2017.
Kösters, D.J.; Kortman, B.A.; Boybat, I.; Ferro, E.; Dolas, S.; de Austri, R.R.; Kwisthout, J.; Hilgenkamp, H.; Rasing, T.; Riel, H.; et al. Benchmarking energy consumption and latency for neuromorphic computing in condensed matter and particle physics. APL Mach. Learn. 2023, 1, 016101.
Wang, Y.; Wen, W.; Song, L.; Li, H.H. Classification accuracy improvement for neuromorphic computing systems with one-level precision synapses. In Proceedings of the 2017 22nd Asia and South Pacific Design Automation Conference (ASP-DAC), Chiba, Japan, 16–19 January 2017.
Ji, Y.; Zhang, Y.; Li, S.; Chi, P.; Jiang, C.; Qu, P. NEUTRAMS: Neural network transformation and co-design under neuromorphic hardware constraints. In Proceedings of the 2016 49th Annual IEEE/ACM International Symposium on Microarchitecture (MICRO), Taipei, Taiwan, 15–19 October 2016.
Ji, Y.; Wang, L.; Long, Y.; Wang, J.; Zheng, H.; Yu, Z.G.; Zhang, Y.-W.; Ang, K.-W. Ultralow energy adaptive neuromorphic computing using reconfigurable zinc phosphorus trisulfide memristors. Nat. Commun. 2025, 16, 6899.
Bai, Q.; Hu, X. Superposition-enhanced quantum neural network for multi-class image classification. Chin. J. Phys. 2024, 89, 378–389.
Ruiz, F.J.R.; Laakkonen, T.; Bausch, J.; Balog, M.; Barekatain, M.; Heras, F.J.H.; Novikov, A.; Fitzpatrick, N.; Romera-Paredes, B.; van de Wetering, J.; et al. Quantum circuit optimization with AlphaTensor. Nat. Mach. Intell. 2025, 7, 374–385.
Sciorilli, M.; Borges, L.; Patti, T.L.; García-Martín, D.; Camilo, G.; Anandkumar, A.; Aolita, L. Towards large-scale quantum optimization solvers with few qubits. Nat. Commun. 2025, 16, 476.
Blekos, K.; Brand, D.; Ceschini, A.; Chou, C.-H.; Li, R.-H.; Pandya, K.; Summer, A. A review on Quantum Approximate Optimization Algorithm and its variants. Phys. Rep. 2024, 1068, 1–66.
Fernandes, A.O.; Moreira, L.F.E.; Mata, J.M. Machine vision applications and development aspects. In Proceedings of the 2011 9th IEEE International Conference on Control and Automation (ICCA), Santiago, Chile, 19–21 December 2011.
Mohaideen Abdul Kadhar, K.; Anand, G. Challenges in Machine Vision System. In Industrial Vision Systems with Raspberry Pi, 1st ed.; Asadi, F., Ed.; Apress: New York, NY, USA, 2024; Volume 4, pp. 73–86.
Waelen, R.A. The ethics of computer vision: An overview in terms of power. AI Ethics 2024, 4, 353–362.
Zhang, B.H.; Lemoine, B.; Mitchell, M. Mitigating unwanted biases with adversarial learning. In Proceedings of the AIES’ 18: 2018 AAAI/ACM Conference on AI, Ethics, and Society, New Orleans, LA, USA, 2–3 February 2018.
Hardt, M.; Price, E.; Srebro, N. Equality of opportunity in supervised learning. In Proceedings of the 30th International conference on Neural Information Processing Systems, Barcelona, Spain, 5–10 December 2016; pp. 3323–3331.
Mehrabi, N.; Morstatter, F.; Saxena, N.; Lerman, K.; Galstyan, A. A survey on bias and fairness in machine learning. ACM Comput. Surv. 2021, 54, 1–35.
Hanna, M.G.; Pantanowitz, L.; Jackson, B.; Palmer, O.; Visweswaran, S.; Pantanowitz, J.; Deebajah, M.; Rashidi, H.H. Ethical and Bias Considerations in Artificial Intelligence/Machine Learning. Mod. Pathol. 2025, 38, 100686.
Kashyapa, R. How Expensive Are Machine Vision Solutions? Available online: ссылка (accessed on 28 March 2025).
Würschinger, H.; Mühlbauer, M.; Winter, M.; Engelbrecht, M.; Hanenkamp, N. Implementation and potentials of a machine vision system in a series production using deep learning and low-cost hardware. Procedia CIRP 2020, 90, 611–616.
Using Artificial Intelligence in Machine Vision. Available online: ссылка (accessed on 28 March 2025).
Malik, P.; Pathania, M.; Rathaur, V.K. Overview of artificial intelligence in medicine. J. Fam. Med. Prim. Care 2019, 8, 2328.
Kitaguchi, D.; Takeshita, N.; Hasegawa, H.; Ito, M. Artificial intelligence-based computer vision in surgery: Recent advances and future perspectives. Ann. Gastroenterol. Surg. 2022, 6, 29–36.
Sinha, S.; Lee, Y.M. Challenges with developing and deploying AI models and applications in industrial systems. Discov. Artif. Intell. 2024, 4, 55.
Christensen, D.V.; Dittmann, R.; Linares-Barranco, B.; Sebastian, A.; Gallo, M.L.; Redaelli, A.; Slesazeck, S.; Mikolajick, T.; Spiga, S.; Menzel, S.; et al. 2022 roadmap on neuromorphic computing and engineering. Neuromorph. Comput. Eng. 2022, 2, 022501.

Авторы: Svetlana N. Khonina, Nikolay L. Kazanskiy, Ivan V. Oseledets, Roman M. Khabibullin and Artem V. Nikonorov

ЗАКАЗАТЬ СИСТЕМУ