Тестирования систем компьютерного зрения на основе искусственного интеллекта: примеры из практики

23
views

В данной статье представлена ​​интеллектуальная модель тестирования ИИ для систем компьютерного зрения, ориентированная на системы, работающие с изображениями. Трехмерная (3D) модель, использующая таблицы решений, позволяет проводить функциональное тестирование на основе модели, автоматическую генерацию тестовых данных и всесторонний анализ покрытия.

Пример исследования с использованием приложения Seek от iNaturalist демонстрирует применимость модели к реальным задачам компьютерного зрения. Она эффективно идентифицирует виды и не-виды в различных условиях изображения, таких как расстояние, размытие, яркость и оттенки серого. Данное исследование вносит вклад в структурированную методологию, которая расширяет наше академическое понимание тестирования компьютерного зрения на основе моделей, предлагая при этом практические инструменты для повышения надежности и отказоустойчивости приложений компьютерного зрения, управляемых ИИ.

1. Введение

Компьютерное зрение — это область компьютерных наук, которая фокусируется на том, чтобы научить машины интерпретировать и понимать визуальный мир с помощью алгоритмов и методов обработки изображений. Использование компьютерного зрения позволяет им идентифицировать и понимать объекты и людей на изображениях и видео. Как и другие виды ИИ, компьютерное зрение стремится выполнять и автоматизировать задачи, воспроизводя человеческие возможности. На абстрактном уровне задачи компьютерного зрения направлены на использование наблюдаемых данных изображения для получения выводов об окружающем мире. К распространенным задачам компьютерного зрения относятся классификация изображений, локализация и обнаружение объектов, а также сегментация изображений.

Наши цели/необходимость в системах компьютерного зрения включают в себя следующее:

  • Цель компьютерного зрения — понять содержание цифровых изображений. Как правило, это включает разработку методов, которые пытаются воспроизвести возможности человеческого зрения.
  • Понимание содержания цифровых изображений может включать в себя извлечение информации из изображения, например, объекта, текстового описания, трехмерной модели и так далее.
  • Цель компьютерного зрения — воспроизвести человеческое зрение с помощью цифровых изображений, используя три основных этапа обработки в последовательном порядке: получение изображения, обработка и анализ изображения, а также понимание изображения.

Преимущества компьютерного зрения заключаются в следующем:

  • Улучшенная автоматизация — благодаря компьютерному зрению машины могут выполнять более сложные задачи, которые в противном случае потребовали бы вмешательства человека. Например, роботы с компьютерным зрением могут выполнять такие задачи, как сортировка объектов или обнаружение дефектов в производственных процессах.
  • Повышенная точность — В отличие от людей, компьютеры способны анализировать визуальные данные с исключительной точностью. Это делает компьютерное зрение ценным инструментом в таких областях, как медицинская визуализация и безопасность, где точная интерпретация визуальных данных может иметь решающее значение.
  • Повышение эффективности — компьютерное зрение может помочь оптимизировать процессы и сделать их более эффективными. Например, компьютерное зрение может использоваться в сельском хозяйстве для обнаружения вредителей или болезней сельскохозяйственных культур, помогая фермерам принимать целенаправленные меры и экономить время и ресурсы.
  • Новые возможности — компьютерное зрение открывает бесчисленные новые возможности для инноваций и творчества. Например, компьютерное зрение можно использовать для разработки новых форм искусства или развлечений, а также для создания новых инструментов и приложений, которые мы еще даже не можем себе представить.
  • Улучшенная доступность — наконец, компьютерное зрение может помочь сделать технологии более доступными для людей с ограниченными возможностями. Например, компьютерное зрение может использоваться для разработки вспомогательных технологий, таких как устройства, которые могут помочь людям с нарушениями зрения ориентироваться в окружающей среде.

Наиболее популярные области применения компьютерного зрения и сценарии его использования включают интеллектуальное зрение дронов, наблюдение и безопасность, интеллектуальные автономные транспортные средства, обрабатывающую промышленность, интеллектуальное сельское хозяйство, медицину и здравоохранение, обнаружение и распознавание лиц, спорт (в качестве третьего судьи), обработку изображений и документов, обнаружение дефектов в промышленности, перевод языков, развлечения, банковское дело с использованием компьютерного зрения, AV, VR и MR, распознавание номерных знаков и так далее.

Растущее применение компьютерного зрения в критически важных и чрезвычайно ответственных задачах, включая автономные транспортные средства, медицинскую диагностику, промышленную инспекцию и мониторинг окружающей среды, привело к острой необходимости в систематических программах тестирования.

Структурированное проектирование тестовых моделей систем компьютерного зрения называется моделированием тестирования, которое неформально представляет взаимосвязь между контекстами (условиями окружающей среды), входными данными (категориями объектов, типами данных) и выходными данными (изображениями или ожидаемыми результатами распознавания или классификации) системы компьютерного зрения.

Это моделирование тестирования позволяет систематически генерировать тесты, автоматически расширять данные и проводить количественный анализ покрытия, что выходит за рамки произвольного тестирования или статической проверки эталонных показателей. Создание такой основы имеет важное и своевременное значение, поскольку системы машинного зрения на основе ИИ все чаще сталкиваются с динамичной, принудительно меняющейся средой, в которой некачественное тестирование может привести к небезопасным или ненадежным результатам.

Новизна данной работы заключается в обсуждении понимания тестирования систем компьютерного зрения, включая проверку объектно-ориентированного интеллекта и проверку интеллекта на основе документов. Кроме того, рассматривается 3D-моделирование тестов, специально предназначенное для проверки интеллекта отслеживания объектов (OTI). Дано подробное объяснение генерации тестов и расширения данных для данных на основе изображений, а также адекватность тестового покрытия.

Представлен пример исследования, Seek от iNaturalist, включающий контекст, входные данные, выходные данные и таблицу решений для различных тестовых случаев, где виды и не-виды классифицируются на основе качества изображения, включая размытость, яркость, расстояние и оттенки серого. Приведены примеры тестовых случаев для видов и не-видов, а также обсуждены результаты тестирования и анализ ошибок.

Данная статья имеет следующую структуру: Раздел 2 содержит обзор соответствующих исследовательских работ по практическому применению компьютерного зрения, включая предысторию. Раздел 3 посвящен моделированию тестирования систем компьютерного зрения, а также интеллектуальному 3D-моделированию тестирования для систем OTI. Раздел 4 описывает генерацию тестов и улучшение данных для интеллектуальных систем компьютерного зрения, уделяя особое внимание данным на основе изображений. Раздел 5 описывает покрытие тестов для 3D-систем компьютерного зрения. Раздел 6 подробно рассматривает пример использования системы Seek от iNaturalist, включая результаты тестирования и анализ частоты отказов. Заключительные замечания по данной работе представлены в разделе 8 .

2. Обзор литературы

Моделирование тестов с использованием искусственного интеллекта стало важной темой, причем фокус смещается между мобильными приложениями и системами компьютерного зрения. Недавние работы демонстрируют использование моделирования тестов на основе ИИ в интеллектуальных мобильных приложениях-чатботах [1]. Машинное обучение широко используется в тестировании программного обеспечения для автоматизации процесса генерации, уточнения и оценки тестовых случаев [2]. В данной работе определены текущие тенденции исследований и подчеркнута необходимость более сильной эмпирической проверки методов на основе машинного обучения в контексте тестирования. Машинное обучение и глубокое обучение широко используются в тестировании графического интерфейса пользователя на основе ИИ в мобильных приложениях, включая тестирование Android и автоматизированное роботизированное тестирование [34].

Анализ дорожного движения с помощью дронов, разработанных для умных городов – распространенное применение систем компьютерного зрения [5]. Основные требования к ИИ включают мониторинг транспортного потока, анализ заторов и генерацию отчетов об анализе дорожного движения. В качестве недавней разработки в системах машинного зрения для автономных транспортных средств была изучена интегрированная модель машинного обучения для решения этой проблемы и необходимости обнаружения и классификации перекрестков улиц, которые зависят от контекста дороги и погодных условий [6]. Сбор, обработка и обучение данных основывались на имеющемся наборе данных (BDD100K, COCO) и новом обучающем наборе данных, содержащем 13 классов контекста улиц и перекрестков, а также 6 классов погодных условий.

В некоторых обзорных статьях также рассматривалось глубокое обучение в методах компьютерного зрения, основанных на знаниях [7], чтобы проверить, как машинное обучение и передовые технологии используются в компьютерном зрении для извлечения важной информации из изображений [8]. С акцентом на простоту использования, согласованность использования и расширяемость [9], более ранняя работа предлагает структуру для автоматизированного создания тестов для систем зрения и распознавания изображений.

Она также демонстрирует, как эта работа может быть применена для тестирования конкретного промышленного приложения, которое включает в себя идентификацию дефектов ребристых поверхностей. Недавние исследования в области компьютерного зрения привели к появлению значимых теорий, эффективных моделей глубокого обучения и приложений, включая распознавание объектов, обнаружение объектов и сегментацию объектов [10]. Другие вопросы, которые уже были рассмотрены с точки зрения новых тенденций и будущих направлений, включают извлечение лицевых признаков, трансферное обучение и классификацию сцен.

Эксперты отрасли обсуждают методы, проблемы и идеи использования ИИ в тестировании и разработке программного обеспечения, а также создании самотестирующихся систем [11]. Представлены фактические мнения сообщества и результаты панельного опроса о практике тестирования программного обеспечения с точки зрения меняющейся роли ИИ. Тестирование программного обеспечения с использованием машинного обучения сталкивается с уникальными проблемами из-за уязвимости моделей машинного обучения к обману и сбоям, особенно в приложениях, критически важных для безопасности [12].

Уникальные методологии разработки, используемые в системах ИИ/машинного обучения, создают критические проблемы тестирования, которые значительно отличаются от традиционных подходов к тестированию программного обеспечения [13]. В этом исследовании определены и описаны основные препятствия тестирования в приложениях ИИ/машинного обучения, что закладывает основу для будущих исследований более эффективных и адаптированных стратегий тестирования. Представлено систематическое представление использования ИИ в тестировании программного обеспечения на основе обзора 20 вторичных работ [14].

Тестирование программного обеспечения может быть улучшено за счет использования ИИ для генерации и проверки тестовых случаев с помощью машинного обучения, обработки естественного языка и фреймворков автоматизации. Совсем недавно в одной из статей упоминались преимущества с точки зрения производительности и охвата при одновременном решении таких проблем, как предвзятость ИИ, потребности в данных и препятствия интеграции [15].

В таблице 1 представлен обзор реальных применений компьютерного зрения и ИИ в различных областях. Он служит двум целям: (а) подчеркнуть широкое и мощное применение компьютерного зрения, тем самым акцентируя внимание на необходимости создания систематических режимов тестирования, которые можно использовать в различных областях применения, и (б) подчеркнуть существующую зависимость от данных, специфичных для конкретной области, и нерегламентированного тестирования, что подтверждает необходимость обобщаемого метода тестирования на основе моделей, включая 3D-модель, предложенную в данной работе.

Следовательно, таблица 1 была разработана не только как краткое изложение литературы, но и как доказательство, в контексте, обосновывающее основную цель данной статьи, а именно разработку структурированной методологии тестирования на основе моделей для систем компьютерного зрения, масштабируемой в различных областях.

Таблица 1. Обзор литературы по практическому применению компьютерного зрения и ИИ.

Ссылка. Цель Методология Приложение Проблемы
16 ] Быстрая и точная система учета рабочего времени на базе IoT-технологий на встроенной операционной системе Linux. Каскад Хаара для обнаружения лиц, гистограмма LBP для распознавания. Обнаружение и распознавание лиц Высокие требования к облачному хранилищу.
17 ] Обзор применения ИИ в пульмонологии для специалистов. Обзор литературы по компьютерному зрению в визуализации, машинному обучению для прогнозирования и искусственному интеллекту в реагировании на COVID-19. Сердечно-сосудистые заболевания и ИИ в пульмонологии Потенциальные ятрогенные риски, связанные с алгоритмами искусственного интеллекта.
18 ] Коэффициент вариации для оценки и подсчета баллов на патоморфологических изображениях по сравнению с ручной оценкой Python 2.7 для анализа слайдов Патомор-фологическая оценка изображений Погрешность 9,2%, точность обнаружения онкологических маркеров 90,8%.
19 ] Масштабируемое, недорогое компьютерное зрение на основе ИИ для анализа дорожного движения в режиме реального времени в промышленных зонах. Машинное обучение с открытым исходным кодом, периферийные устройства, настройка по запросу, модульная панель управления. Мониторинг дорожного движения, поддержка принятия решений, интеллектуальная инфраструктура Только для использования в помещении, высокая нагрузка на входные сигналы, требуется опыт партнеров.
20 ] Рабочий процесс для предварительного изучения поведения модели и причин сбоев. Инструмент fAIlureNotes для оценки моделей и выявления отказов. Поддержка пользователей в понимании ограничений ИИ Ограниченные знания в области ИИ и отсутствие доступных инструментов.
21 ] Модель ИИ/машинного обучения для повышения точности прогнозирования Классификация диабета на основе симптомов на основе набора данных. Определение типа диабета в здравоохранении Потребность в точном и своевременном прогнозировании заболеваний.
22 ] Подсчет всходов с помощью обнаружения объектов и мобильного приложения. CRISP-DM для сбора, обработки и обучения данных. Садоводство для автоматизации агротехно-логических процессов Эффективность подсчета составляет от 57 до 96%.
23 ] Обзор методов компьютерного зрения: обнаружение, распознавание, сегментация, 3D-моделирование. Производственная система с датчиками, компьютерным управлением, принятием решений и исполнительными механизмами. Производство Реализация, предварительная обработка, маркировка, сравнительный анализ
24 ] Интеграция смешанной реальности с распознаванием с помощью ИИ для создания цифровых двойников Технология смешанной реальности и искусственного интеллекта в реальном времени с возможностью подключения к Интернету вещей. Распознавание/мониторинг объектов в рамках концепции «Индустрия 4.0» Высокая вычислительная мощность; компромисс между точностью и задержкой.
25 ] Разработка системы безопасного обучения работе с опасными грузами на основе МРТ. Разработка системы безопасного обучения работе с опасными грузами на основе МРТ. Обучение в области логистики и промышленной безопасности Реалистичность сценариев; перенос на реальные задачи.
26 ] Применение дополненной и виртуальной реальности для повышения эффективности обучения техническому обслуживанию. Интерактивные обучающие модули с дополненной и виртуальной реальностью. Техническое обслуживание промышленных систем Техническое обслуживание промышленных систем
27 ] Анализ связи между кардиологическим обследованием и наблюдением Анализ патентных документов, поиск языковых закономерностей Выявление людей в системах видео-наблюдения Обфускация, нормализация, пробелы в прозрачности

3. Моделирование тестов для систем компьютерного зрения

Термин «тестовое моделирование» описывает метод систематического описания компонентов тестируемой системы (включая входные данные, ситуации и реакции) таким образом, чтобы облегчить систематическое создание тестовых примеров и оценку адекватности. В программной инженерии в качестве традиционных моделей для моделирования тестов использовались таблицы решений, диаграммы переходов состояний и деревья классификации. Эти методы хорошо работают с детерминированными системами, где можно определить и проверить ожидаемые результаты.

Однако с появлением систем, управляемых искусственным интеллектом, особенно в компьютерном зрении, моделирования уже недостаточно. Системы ИИ чувствительны к изменениям качества данных, окружающей среды и сложности задач, поскольку они обучаются на основе данных и работают в условиях неопределенности и зависимости от контекста. Следовательно, модели тестирования ИИ должны быть расширены, чтобы включить традиционные принципы, связанные с контекстной изменчивостью, автоматическим расширением и метриками адекватного покрытия.

3.1. Понимание тестирования систем компьютерного зрения

Проблемы, возникающие при тестировании системы компьютерного зрения, включают в себя:
  • Трудности в установлении четко определенных, ясных и измеримых требований к контролю качества;
  • Отсутствие четко определенных и применяемых стандартов контроля и обеспечения качества;
  • Отсутствие четко определенных, систематизированных методов и решений для проверки качества;
  • Отсутствие автоматизированных инструментов тестирования с четко определенным и адекватным уровнем тестового покрытия;
  • Отсутствие автоматизированных методов и решений для анализа адекватного и качественного тестового покрытия.

Проверка интеллекта в системах компьютерного зрения основана на обработке текста и документации, однако концепция проверки интеллекта базируется на изображениях и документах. Проверка на основе изображений касается производительности системы при обработке визуальных входных данных в различных условиях (например, освещение, размытие, перекрытие) и оценивает устойчивость системы в задачах распознавания, обнаружения и классификации.

Проверка на основе документов, напротив, измеряет способность систем зрения считывать и распознавать структурированные данные в текстовых изображениях и отсканированных документах, что необходимо в таких приложениях, как оптическое распознавание символов (OCR), автоматическое чтение форм и проверка соответствия требованиям. На рисунках 1 и 2 показаны проверки интеллекта на основе изображений и документов в системах компьютерного зрения соответственно.

Рисунок 1. Проверка интеллектуальных возможностей системы компьютерного зрения на основе изображений.

Рисунок 2. Проверка достоверности данных на основе документов для системы компьютерного зрения.

Данное исследование посвящено решениям и системам компьютерного зрения на основе изображений, перечисленным в таблице 2.

Таблица 2. Направления и цели систем компьютерного зрения.
Особенность Выполненная задача
Извлечение объекта Это помогает извлекать объекты из изображения.
Обнаружение и классификация объектов Это помогает обнаруживать и классифицировать объекты на изображении.
Отслеживание и подсчет объектов Это помогает отслеживать и подсчитывать объекты на изображении.
Обнаружение и классификация поведения объектов Это помогает в обнаружении поведения объектов и их классификации на изображении.
Идентификация, распознавание, сегментация объектов и извлечение признаков. Он используется для идентификации/распознавания и сегментации объекта, а также для извлечения признаков из изображения.
Предварительная обработка и классификация документов Это помогает в предварительной обработке документа и его классификации на изображении.
Извлечение и сбор текста/данных из документов. Это помогает в извлечении текста и данных, а также в их сборе в документе.
Анализ и понимание документов Это помогает понять и проанализировать документ.
Проверка и аудит документации Это помогает при аудите и проверке документов.
Проверка данных/текста Он используется для проверки данных и информации в документе.

3.2. Традиционное моделирование испытаний

В разработке программного обеспечения традиционное моделирование тестирования долгое время применялось для систематического проектирования и проверки тестовых примеров. Таблицы решений, диаграммы переходов состояний и деревья классификации — это методы, обеспечивающие структурированное представление поведения системы, что позволяет систематически генерировать тестовые примеры. В традиционном моделировании тестирования цель состоит в достижении систематического охвата детерминированного поведения системы. Применяемая методология — это формальные модели (таблицы решений, переходы и деревья классификации) для сопоставления входных данных с ожидаемыми выходными данными. Она эффективна в контекстах, где выходные данные явно определены и предсказуемы. Этот метод испытывает трудности с системами на основе искусственного интеллекта, где выходные данные являются вероятностными и чувствительными к различным условиям окружающей среды.
В результате, традиционное моделирование тестирования обеспечивает прочную основу для систематического тестирования, но недостаточно для приложений, основанных на искусственном интеллекте, особенно в таких областях, как компьютерное зрение, где преобладают неопределенность и изменчивость входных данных.

3.3. Моделирование тестирования ИИ

Моделирование тестирования ИИ расширяет традиционные методы, учитывая уникальные характеристики систем ИИ. В отличие от детерминированного программного обеспечения, системы ИИ обучаются на основе данных и должны работать в неопределенных, контекстно-зависимых условиях. Цель моделирования тестирования ИИ — оценить устойчивость системы ИИ в условиях реальной изменчивости.

Оно интегрирует контекстно-зависимые вариации, автоматическую генерацию/расширение тестовых данных и метрики покрытия, основанные на адекватности. Преимущество заключается в том, что оно выходит за рамки статических бенчмарков, выявляя пробелы в устойчивости в различных условиях. Фокус не ограничивается только выявлением сбоев, но и тем, как и почему они происходят (режимы сбоев). Этот подход особенно актуален для систем компьютерного зрения, где изменчивость окружающей среды — такая как освещение, размытие, расстояние, окклюзия и изменение цвета — может существенно влиять на производительность.

Поэтому моделирование тестирования ИИ акцентирует внимание как на систематической генерации тестов, так и на диагностических данных, обеспечивая более полную оценку поведения системы, чем традиционные подходы.

Ограничения традиционных подходов и растущий спрос на надежное тестирование ИИ подчеркивают необходимость структурированных фреймворков, адаптированных для компьютерного зрения. Основываясь на этих соображениях, в следующем разделе представлен наш трехмерный (3D) фреймворк моделирования тестирования ИИ.

Эта модель интегрирует контекст, входные и выходные классификационные деревья в таблицы решений, опираясь на традиционные концепции моделирования для решения проблем надежности в современных системах компьютерного зрения. В данной статье моделирование тестирования ИИ расширено до характеристик ИИ в компьютерном зрении путем построения трехмерных моделей, учитывающих контекст, входные и выходные переменные.

Этот систематический подход к генерации тестов поддерживает систематическую генерацию тестовых данных и диагностической информации о надежности системы, которая выходит за рамки традиционного или основанного на эталонах тестирования. Для любой заданной системы компьютерного зрения процесс интеллектуального моделирования тестирования осуществляется следующим образом:

Цикл: Для каждой характеристики (функции) компьютерного зрения,

  • Создайте тестовую модель, используя представленную ниже трехмерную модель дерева:

    (а) Создайте модель контекстного дерева для представления правильно классифицированных контекстов в системе компьютерного зрения;

    (б) Создайте модель дерева входных данных для представления правильно классифицированных входных данных для системы компьютерного зрения;

    (с) Создайте соответствующую модель дерева выходных данных для представления корректно классифицированных выходных данных тестируемой системы компьютерного зрения.

  • Автоматически генерировать таблицу решений 3D-классификации для каждой характеристики (функции) компьютерного зрения на основе полученной модели 3D-дерева.

В данной работе разработана модель для 3D-классификации в системе компьютерного зрения, использующей интеллектуальные функции отслеживания объектов. Различные сценарии в модели включают три модели дерева классификации: контекст, входные данные и выходные данные.

3.4. Моделирование классификации контекста

Контекст выбранной системы отслеживания объектов определяется условиями окружающей среды, в которых была сделана фото- или видеосъемка объекта. На эффективность функции могут влиять многие факторы, включая погоду, время года, условия освещения/времени, фон и фоновый шум. На рисунке 3 представлено дерево классификации контекста, построенное с учетом различных факторов, которые могут повлиять на конечную эффективность системы компьютерного зрения.

Рисунок 3. Дерево классификации контекста для систем OTI.

3.5. Моделирование классификации входных данных

Классификация входных данных относится к техническим аспектам модели, включая понимание того, какой тип объекта был обнаружен. На рисунке 4 показаны входные данные для системы компьютерного зрения в случае системы интеллектуального отслеживания объектов (OTI). Как правило, входные данные пытаются отслеживать поведение, отслеживать экземпляры, гибридное отслеживание и тип объекта.

Рисунок 4. Дерево классификации входных данных для систем OTI.

3.6. Моделирование классификации выходных данных

Классификация выходных данных относится к возможным результатам, которые могут быть получены на основе предоставленных входных данных. Таким образом, основные разделения на выходные данные остаются такими же, как и на входные, как показано на рисунке 5. Окончательные результаты, полученные для дерева классификации выходных данных, представляют собой правильные/неправильные ответы.

4. Генерация тестов и расширение данных для интеллектуальных систем компьютерного зрения

В этом разделе рассматриваются различные методы создания и улучшения данных и текста для интеллектуальных чат-ботов.

4.1. Генерация тестов

Существуют следующие подходы к генерации тестов для систем компьютерного зрения:

  • Поиск тестовых данных: использование интернет-решений для поиска, выбора и проверки найденных тестовых данных для целевой функции (или характеристики) системы компьютерного зрения.
  • Расширение тестовых данных: Использование различных решений и инструментов для расширения тестовых данных, включая модели и фреймворки машинного обучения, для генерации разнообразных расширенных тестовых данных на основе выбранных тестовых данных (изображений, видео и изображений документов) для выбранной функции/признака компьютерного зрения в тестируемой системе компьютерного зрения.
  • Генерация тестовых данных на основе модели: Использование инструмента генерации тестовых данных на основе модели для создания разнообразных тестовых данных с целью получения хорошо классифицированных тестовых данных на основе модели (изображений, видео и изображений документов) для выбранной функции/признака компьютерного зрения в тестируемой системе компьютерного зрения с целью достижения четко определенного (или выбранного) критерия адекватного тестового покрытия.
  • Генерация тестовых данных на основе ИИ: использование моделей машинного обучения и методов ИИ для генерации необходимых тестовых данных для целевой характеристики (или функции) компьютерного зрения на основе заданной схемы тестирования характеристики (или функции) зрения в системе компьютерного зрения для достижения четко определенных критериев тестового покрытия.
  • Сбор и обработка тестовых данных в режиме реального времени на месте проведения испытаний: Использование различных методов и инструментов сбора тестовых данных для получения необработанных данных в режиме реального времени на месте проведения испытаний (видео с камер, фотографии и/или изображения документов) через API систем компьютерного зрения. Для подготовки собранных данных в качестве целевых тестовых данных будут использоваться модели или инструменты машинного обучения для предварительной обработки собранных данных и преобразования их в целевые тестовые данные для четко определенных, адекватных критериев тестирования.

В случае системы интеллектуального отслеживания объектов (OTI) использовался подход к тестированию на основе моделей, где первоначально выбирается 3D-модель дерева тестов ИИ, которая может иметь k отдельных входных данных, за которыми следуют k отдельных таблиц классификации 3D-тестов ИИ, как показано в левой части рисунка 6. Затем на этой модели работает генерация тестов ИИ, включая автоматическое обнаружение тестовых данных, выбор и проверку тестовых данных на основе ИИ, а также расширение тестовых данных на основе ИИ, которые затем, наконец, добавляются к наборам данных для тестирования на основе моделей.

Рисунок 6. Тестовая сервисная платформа, используемая для компьютерного зрения.

4.2. Расширение данных

В системах компьютерного зрения тестовые данные могут быть дополнены изображениями и документами. Дополнение изображений может быть результатом поворота объекта, добавления сезонных/погодных изменений, добавления света/цвета, искажения объекта, цифрового дополнения, изменения фона, добавления/удаления объекта, добавления/удаления текста или замены текста на изображении. На рисунке 7a показаны различные изображения с добавлением поворота, а на рисунке 7b представлена ​​классификация погоды . Дополнение данных на основе документов — это обширная область, которая будет рассмотрена в будущих работах.

Рисунок 7. Примеры для аугментации данных. ( а ) Результат ротационной аугментации. ( б ) Результат классификации погоды.

5. Адекватное тестовое покрытие и стандарты для систем компьютерного зрения

Адекватность тестирования качества для систем компьютерного зрения на основе изображений имеет решающее значение для производительности и надежности системы. Она включает в себя определение точности, с которой модель может обрабатывать визуальную информацию, и способности модели точно работать в ситуациях, отражающих разнообразие реальных условий, таких как качество изображения, углы освещения и перспектива объектов. В таблице 3 показано покрытие тестирования на основе изображений для систем компьютерного зрения.

Таблица 3. Тестовое покрытие для систем компьютерного зрения.
Покрытие Выполненная задача
Обнаружение и классификация объектов Тест охватывает обнаружение объектов, специфичных для данной предметной области, и их классификацию.
Отслеживание объектов Отслеживание объектов рассматривается в рамках данного тестового покрытия.
Обнаружение и классификация поведения объектов Это включает в себя обнаружение поведения объектов и их классификацию на изображении.
Подсчет объектов Это включает в себя подсчет объектов на изображении.
Сегментация объектов Это включает в себя сегментацию объекта на изображении.
Распознавание объектов, специфичное для предметной области Это охватывает специфическое для данной области распознавание объектов на изображении.
Извлечение признаков Это включает в себя извлечение признаков из изображения.
Извлечение объекта Это включает в себя извлечение конкретных объектов из изображения.

 

Адекватность тестирования на основе модели для системы компьютерного зрения.

На основе созданной древовидной модели 3D-ИИ можно построить таблицу классификации для каждого целевого типа тестируемого компьютерного зрения. Используя эту таблицу классификации в качестве схемы тестирования, можно сгенерировать набор тестовых примеров классификации для 3D-ИИ (известный как 3DT-Set). Ниже можно определить четыре критерия покрытия тестирования:

  • Покрытие тестовой таблицы классификации трехмерных тестов ИИ — Для достижения этого покрытия тестовый набор (3DT-Set) должен включать один тестовый случай для любого трехмерного элемента (CT-x, IT-y, OT-z) в трехмерной таблице классификации тестов ИИ;
  • Покрытие тестовой таблицы классификации контекста — Для достижения этого покрытия набор тестов (3DT-Set) должен включать один тестовый случай для любого правила в таблице классификации контекста;
  • Покрытие тестовой таблицы классификации входных данных — Для достижения этого покрытия набор тестов (3DT-Set) должен включать как минимум один тестовый случай для любого правила в таблице классификации входных данных;
  • Покрытие тестовой таблицы классификации выходных данных — Для достижения этого покрытия тестовый набор (3DT-Set) должен включать как минимум один истинный случай для каждого правила в таблице классификации выходных данных.

6. Пример из практики — Поиск с помощью iNaturalist

Приложение Seek от iNaturalist — это мобильное приложение на основе искусственного интеллекта, разработанное для идентификации растений и животных. Использование компьютерного зрения для идентификации видов в реальном времени предоставляет образовательную информацию, а также сведения о сохранении видов. Хотя Seek выполняет статическую классификацию изображений, а не динамическое отслеживание объектов, оно представляет собой подходящий пример для демонстрации обобщаемости предлагаемой структуры 3D-моделирования.

Диаграмма дерева классификации для функции на основе ИИ в мобильном приложении Seek представлена ​​на рисунке 8. Применяются те же принципы контекстных вариаций (рисунок 8a, размытие, яркость, расстояние и оттенки серого), входных категорий (рисунок 8b, вид против не-вида) и выходной классификации (рисунок 8c, правильное против неправильного распознавания), что позволяет проиллюстрировать практическое применение структурированного моделирования в реальной системе компьютерного зрения.

Рисунок 8. Пример дерева классификации для функции на основе ИИ в мобильном приложении Seek. ( a ) Дерево классификации контекста. ( b ) Дерево классификации входных данных. ( c ) Дерево классификации выходных данных.

6.1. Методология и создание набора данных

Для обеспечения воспроизводимости и строгости методология, использованная для построения тестового набора данных, была следующей:

  • Источники изображений: Изображения видов были собраны непосредственно из приложения Seek, а изображения невидов были дополнены общедоступными ресурсами (например, предметами домашнего обихода, простыми фонами).
  • Критерии отбора: Изображения были отобраны таким образом, чтобы представлять четыре категории видов — насекомые, цветы, деревья и птицы — и четыре категории, не относящиеся к видам — стул, бутылка, веер и однотонный фон. Это обеспечило включение как поддерживаемых, так и неподдерживаемых входных данных.
  • Контекстуальные вариации: Для внесения контролируемых изменений (например, размытие по Гауссу, масштабирование яркости, преобразование в оттенки серого) систематически применялись аугментации, обеспечивающие соответствие тестового набора данных реалистичным условиям получения изображений, с которыми сталкиваются конечные пользователи.

Эти усовершенствования были выбраны потому, что они являются одними из наиболее распространенных источников ошибок в реальных условиях работы компьютерного зрения, что делает тестовые данные реалистичными и диагностически значимыми, а также обеспечивает основу для воспроизводимости в будущих исследованиях.

6.2. Моделирование тестирования ИИ для отдельных функций ИИ

Моделирование контекста: Эта модель классифицирует различные форматы входных данных. Для функции Seek в качестве входных данных используется только изображение, хотя качество изображения может быть различным, с разными настройками. Для эффективного тестирования функции идентификации видов в Seek контекст тестирования разбит на несколько категорий, охватывающих широкий спектр сценариев. Первая категория — яркость, которая оценивает функцию идентификации в различных условиях освещения. Вторая категория — размытость, цель которой — оценить эффективность идентификации при обработке изображений разного уровня качества. Третья категория — расстояние, которая проверяет способность функции распознавать виды независимо от того, насколько близко или далеко они находятся на изображении. Наконец, четвертая категория — оттенки серого, которая проверяет эффективность функции в идентификации видов в черно-белом цвете, а не в их естественных цветах.

Моделирование входных данных: Цель данной модели — сосредоточиться на типах входных данных. Замечено, что для функции «Поиск» существует два основных типа входных данных: виды и не-виды. Входные данные, относящиеся к видам, — это изображения, содержащие организмы, поддерживаемые системой идентификации, такие как птицы, насекомые, деревья и цветы. Входные данные, содержащие несвязанные объекты, такие как футбольные мячи, дома и еда, будут классифицироваться как не-видовые данные, поскольку они выходят за рамки возможностей распознавания признаков.

Моделирование выходных данных: Было замечено, что функция идентификации Seek имеет два выходных результата: «Пройдено» и «Не пройдено». Две основные части тестируемой функции — это распознавание видов и идентификация видов. Распознавание видов — это способность распознавать виды, не распознавая при этом невиды. Идентификация видов — это способность распознавать правильный вид на изображении.

6.3. Тестовые примеры функций ИИ, генерация данных и покрытие тестами.

Тестовые примеры генерируются с помощью инструмента тестирования ИИ, который использует ранее определенные тестовые модели. Чтобы соответствовать логике тестирования, изображения, не относящиеся к видам, и изображения, относящиеся к видам, тестируются отдельно, даже несмотря на то, что набор тестов объединяет их в один тестовый пример. Некоторые табличные представления тестовых примеров, сгенерированных инструментом тестирования ИИ, для изображений видов и не относящихся к видам, приведены на рисунках 9 и 10 соответственно. Для изображений видов на рисунке 9a показано влияние расстояния, а на рисунке 9b — влияние оттенков серого на эффективность распознавания.

Рисунок 9. Примеры тестовых случаев для входных данных о видах, демонстрирующие вариативность контекста. ( а ) Влияние расстояния на эффективность распознавания. ( б ) Влияние изображений в оттенках серого и цветных изображений на эффективность распознавания.

Рисунок 10. Пример тестового случая для невидовых объектов.

Каждая группа тестовых случаев включает в себя комбинацию контекстных переменных (размытие, яркость, расстояние, оттенки серого), применяемых ко всему входному пространству (тип вида, не-вид). Вместо того чтобы изолировать каждый из контекстов в рамках входного пространства, их объединение позволяет лучше понять, какие контексты оказывают большее влияние на точность модели компьютерного зрения. Это позволяет адекватно проверить сильные стороны модели без проведения исчерпывающих тестов.

Тестовые данные были сгенерированы и дополнены в соответствии с методикой, использованной в данном исследовании, для отражения реальных вариаций. В частности, достоверность тестовых данных обеспечивалась посредством

  • Контекстная релевантность: Дополнения были выбраны на основе типичных реальных вариаций, включающих размытие, яркость, расстояние и изменения оттенков серого, среди прочего, при захвате изображений. Они были выбраны, поскольку, как правило, были определены как основные источники снижения производительности в используемых системах машинного зрения.
  • Контролируемое расширение данных: Методы расширения данных (например, вращение, масштабирование яркости, имитация размытия) контролировались таким образом, чтобы сгенерированные изображения были реалистичными без наложения искусственных искажений, которые не возникли бы в природе.

Это гарантирует, что сгенерированные тестовые данные не являются произвольными, а систематически разработаны для отражения реальных условий визуализации, имеющих отношение к оценке производительности компьютерного зрения.

В разделе 5 рукописи определены восемь основных типов покрытия для тестирования систем компьютерного зрения (обнаружение объектов, отслеживание, классификация поведения, подсчет, сегментация, распознавание, извлечение признаков и извлечение объектов). В тематическом исследовании Seek основное внимание в тестировании уделяется обнаружению и классификации объектов, распознаванию объектов и интеллектуальному отслеживанию объектов (OTI). Эти параметры были выбраны, поскольку они напрямую связаны с основной функциональностью Seek — идентификацией видов на изображениях и их различением от невидовых входных данных. Хотя другие аспекты покрытия (например, классификация поведения, сегментация) остаются важными, они выходят за рамки данной демонстрации и будут рассмотрены в будущих работах.

6.4. Результаты и анализ видов отказов

Тестирование функции ИИ для идентификации видов в системе Seek показало общий процент успешного прохождения 38%. В таблице 4 показан процент успешного прохождения для категорий видов и не-видов. Он варьировался в зависимости от вида: процент успешного прохождения для птиц (48%), деревьев (44%), насекомых (32%) и цветов (28%). В отличие от этого, тесты для не-видов показали 100% успешность, что указывает на эффективность системы в отфильтровывании нерелевантных входных данных, хотя она и сталкивается с трудностями в точной идентификации некоторых видов.

Таблица 4. Результаты классификации по категориям видов.
Категория Процент успешной сдачи экзаменов (по категориям)
Разновидность
Насекомые 8/25 = 32%
Цветы 7/25 = 28%
Деревья 11/25 = 44%
Птицы 12/25 = 48%
Общий 38/100 = 38%
Невидовые
Стул 6/6 = 100%
Вентилятор 2/2 = 100%
Синий фон 4/4 = 100%
Бутылка 4/4 = 100%
Общий 16/16 = 100%

 

Последующий анализ, представленный в таблице 5, показывает, что качество изображения оказывает существенное влияние на производительность. Меньшее размытие, достаточная яркость и близкое расстояние обеспечили более высокую точность. Однако сильное размытие, низкая яркость и дальнее расстояние ухудшают ее. Изображения в неградациях серого показали значительно лучшие результаты (71% успешности) по сравнению с изображениями в градациях серого (8% успешности), что указывает на недостатки в конвейере обработки цвета Seek. Размытие и яркость также оказывали заметное влияние: большее размытие и меньшая яркость приводили к ухудшению производительности. Эти выводы предполагают, что улучшения в аугментации данных, особенно в обработке цвета и сложных условиях, приведут к созданию более качественных моделей и повышению общей точности.

Таблица 5. Результаты классификации при различных контекстных вариациях.

Контекст включен Процент успешно сдавших экзамен (все категории)
Разновидность
Слабое размытие 23/48 = 48%
Высокое размытие 15/52 = 29%
Низкая яркость 10/36 = 28%
Обычная яркость 14/32 = 41%
Высокая яркость 14/32 = 41%
Близкое расстояние 22/52 = 42%
Дальнее расстояние 16/48 = 33%
Оттенки серого 4/52 = 8%
Не в оттенках серого 34/48 = 71%
Невидовые
Слабое размытие 2/16 = 12,5%
Высокое размытие 2/16 = 12,5%
Низкая яркость 2/16 = 12,5%
Обычная яркость 2/16 = 12,5%
Высокая яркость 2/16 = 12,5%
Близкое расстояние 2/16 = 12,5%
Дальнее расстояние 2/16 = 12,5%
Оттенки серого 2/16 = 12,5%
Не в оттенках серого 2/16 = 12,5%
Общий 16/16 = 100%

 

Графическое представление режимов разрушения у разных видов, специфичных для расстояния и оттенков серого, представлено на рисунках 11a и 11b соответственно. Конкретные режимы разрушения наблюдаются следующим образом:

Рисунок 11. Графическое представление режимов отказов при классификации видов. ( а ) Чувствительность к расстоянию. ( б ) Преимущество оттенков серого.

  • Недостатки в качестве изображения: сильное размытие и низкая яркость неизменно приводили к ошибкам классификации.
  • Путаница с видами: некоторые изображения цветов были ошибочно классифицированы как деревья, что указывает на трудности с точным определением видов.
  • Недостатки цветовых характеристик: неожиданно лучшие результаты были получены в оттенках серого, чем в цвете, что указывает на чрезмерную зависимость от текстурных или геометрических характеристик, а не на надежное извлечение цветовых признаков.
  • Чувствительность к расстоянию: точность снижалась на больших расстояниях, что указывает на ограничения в обработке разрешений объектов.

Эти результаты демонстрируют, как предложенная структура моделирования 3D-тестирования обеспечивает структурированное понимание слабых мест системы, выходя за рамки простых показателей точности и переходя к диагностическому анализу устойчивости.

7. Обсуждение

Тестирование систем компьютерного зрения (CV) по-прежнему сталкивается с фундаментальными проблемами, препятствующими надежности и масштабируемости. Современные методы часто основаны на несистематическом тестировании, статических эталонных наборах данных или субъективной проверке, которые не позволяют учесть разнообразие и непредсказуемость реальных условий. В результате гарантировать надежность, отказоустойчивость и воспроизводимость остается сложной задачей. В данном исследовании эти проблемы решаются путем внедрения трехмерной (3D) модели тестирования ИИ, которая интегрирует контекст, входные и выходные классификационные деревья в таблицы решений. Основные результаты исследования заключаются в следующем:

  • Академический вклад: Данная работа расширяет концепции тестирования на основе моделей на системы компьютерного зрения, учитывая размытие, яркость, расстояние и изменчивость цвета. В отличие от существующих подходов, основанных на моделях, данная структура явно включает метрики адекватности, автоматическое расширение данных и систематическую классификацию сценариев тестирования.
  • Практическое значение: Он предоставляет разработчикам и инженерам согласованный и широко применимый способ тестирования систем компьютерного зрения. Фреймворк дополняет нерегламентированное тестирование или валидацию на основе бенчмарков, интегрируя проектирование на основе моделей с автоматизированным расширением данных.

Хотя первоначальным источником вдохновения для этой работы послужила технология отслеживания объектов (OTI), она не ограничивается ею. Принципы систематического структурирования контекста, входных и выходных данных также применимы к задачам классификации и распознавания на основе изображений. Таким образом, для демонстрации такой обобщенности был выбран пример использования функции Seek от iNaturalist. Хотя Seek не требует динамического отслеживания, метод 3D-моделирования предоставляет важную информацию о надежности в различных условиях.

Преимуществами методологии, рассмотренной в данной статье, являются:

  • Предложенная 3D-модель тестирования ИИ с использованием таблиц решений обеспечивает систематическое, структурированное покрытие по нескольким измерениям.
  • Функциональное тестирование ИИ на основе моделей повышает отслеживаемость и воспроизводимость результатов.
  • Автоматизированная генерация и расширение тестовых данных повышают покрытие без необходимости использования обширных наборов данных, созданных вручную.
  • Контекстные вариации оказали сильное влияние: градации серого неожиданно превзошли цветные изображения, размытие и расстояние ухудшили распознавание, а изменения яркости повлияли на результаты.
  • Эти результаты подчеркивают ценность контекстно-ориентированного тестирования, которое выявляет слабые места, часто скрытые в эталонных наборах данных.
  • Благодаря интеграции охвата, адекватности и автоматизированной проверки, данная методология устраняет ключевые недостатки существующих решений.

В таблице 6 показаны различия между традиционными, модельными, основанными на искусственном интеллекте и эталонными подходами к тестированию систем компьютерного зрения по таким параметрам, как цели, методологии, обработка данных, валидация и охват.

Таблица 6. Сравнение подходов к тестированию систем компьютерного зрения.

Аспект Традиционные методы тестирования Тестирование на основе моделей Тестирование ИИ Сравнительное тестирование
Цель Применение традиционных методов системного тестирования для поддержки разработки тестов. Настройка тестовой модели для поддержки проектирования тестов и автоматизации. Автоматизация и оптимизация разработки тестов с использованием моделей тестирования на основе ИИ/машинного обучения. Сравнение производительности на фиксированных тестовых наборах с использованием стандартизированных метрик.
Подход к тести-рованию В основном, это несистемные, скриптовые и традиционные системные функции. Формализовано с использованием таблиц решений и моделей. Адаптивное тестирование на основе ИИ с динамическими контурами обратной связи Оценка на основе тестового набора с использованием статических метрик
Генерация тестовых данных Ручная или традиционная генерация тестовых примеров Систематически выводится из переходов модели и ограничений. Создано автоматически с использованием ИИ/машинного обучения, включая данные, специфичные для конкретной предметной области. Предварительно заданные наборы тестов (например, ImageNet, COCO), ограниченная гибкость.
Расширение тестовых данных Редкие или ручные улучшения Расширение на основе сценариев с использованием вариаций модели. Автоматизированное дополнение изображений (шум, размытие, вращение, враждебные возмущения) Ограниченное расширение функциональности, часто ограничивающееся областью применения в тестовом наборе данных.
Проверка досто-верности теста Проверка с помощью человеческого оракула или произвольного оракула, часто субъективная. Проверка модели Oracle на соответствие ожидаемому поведению Проверка с помощью ИИ, обнаружение аномалий, анализ ошибок Проверка достоверности результатов тестирования на основе заданного набора тестов.
Покрытие тестов Достигнуто ограниченное традиционное покрытие (например, покрытие тестовых сценариев). Для систем компьютерного зрения достигнуто систематическое покрытие на основе моделей. Широкий охват за счет автоматической генерации и расширения Ограничено областью применения набора эталонных тестов.

 

Это сравнение подчеркивает эволюцию методов тестирования систем компьютерного зрения. Традиционное тестирование остается в значительной степени несистематическим, с ограниченным охватом и опорой на мнение экспертов, в то время как тестирование на основе моделей обеспечивает систематический охват за счет использования формальных моделей.

Тестирование с использованием ИИ вводит автоматизацию в генерацию, расширение и проверку тестов, обеспечивая более широкий и адаптивный охват, но все еще сталкивается с проблемами стандартизации. Бенчмарк-тестирование, хотя и ценно для сопоставимости с помощью фиксированных наборов тестов, ограничено статическими метриками и ограниченной гибкостью.

В совокупности эти выводы подчеркивают необходимость гибридных подходов, которые сочетают в себе строгость тестирования на основе моделей, масштабируемость тестирования с использованием ИИ и сопоставимость, предлагаемую бенчмарк-тестами.

Несмотря на эти преимущества, существуют и ограничения. Данное исследование было ограничено рядом категорий покрытия (обнаружение, распознавание и отслеживание), использовался небольшой набор данных для расширения функциональности, а структура была протестирована на одном конкретном примере. Генерация тестов и анализ покрытия автоматизированы, но некоторая ручная интерпретация результатов тестов все еще необходима. Кроме того, недостатком является невозможность полной автоматизации валидации и измерения покрытия.

8. Выводы и перспективы на будущее

В данной статье представлен новый подход к интеллектуальному моделированию тестирования ИИ для систем компьютерного зрения, с акцентом на интеллектуальное отслеживание объектов (OTI) с помощью трехмерной (3D) тестовой модели и структуры таблиц решений. Благодаря интеграции тестирования на основе моделей, автоматической генерации тестовых данных и всестороннего анализа покрытия тестов, предложенная методология улучшает процесс валидации для приложений компьютерного зрения на основе ИИ.

Пример приложения Seek от iNaturalist, сфокусированный на классификации изображений, а не на отслеживании, демонстрирует гибкость работы и выявляет такие режимы отказов, как чувствительность к размытию, расстоянию и цветовым характеристикам. Результаты подчеркивают потенциал интеллектуального моделирования тестирования для повышения надежности и оценки производительности реальных систем ИИ. В частности, структурированная 3D-модель тестирования улучшает покрытие и способствует раннему обнаружению дефектов, что критически важно в ответственных приложениях компьютерного зрения.

Основываясь на предложенной структуре, дальнейшая работа может исследовать несколько направлений. Тестовая модель может быть расширена для поддержки многомодальных систем ИИ, объединяющих входные данные из документов, изображений, текста и аудио. Применение модели к другим сценариям использования компьютерного зрения, таким как медицинская визуализация, автономные транспортные средства или промышленная инспекция, может подтвердить ее адаптивность и независимость от предметной области.

Наконец, включение стратегий самовосстановления и оптимизации тестирования на основе обучения с подкреплением может еще больше автоматизировать и повысить точность жизненного цикла тестирования ИИ. Объем работы ограничен (ограниченные категории охвата, ограниченное количество аугментаций, зависимость от одного конкретного случая), но это открывает области для дальнейшего развития. В будущем планируется расширить структуру для задач динамического отслеживания, сегментации и многомодального компьютерного зрения; включить более совершенные методы аугментации; и обеспечить валидацию в различных областях применения.

Литература

  1. Gao, J.; Agarwal, R.; Garsole, P. AI Testing for Intelligent Chatbots—A Case Study. Software 20254, 12. [Google Scholar] [CrossRef]
  2. Durelli, V.H.S.; Durelli, R.S.; Borges, S.S.; Endo, A.T.; Eler, M.M.; Dias, D.R.C.; Guimarães, M.P. Machine Learning Applied to Software Testing: A Systematic Mapping Study. IEEE Trans. Reliab. 201968, 1189–1212. [Google Scholar] [CrossRef]
  3. Zhang, T.; Liu, Y.; Gao, J.; Gao, L.P.; Cheng, J. Deep Learning-Based Mobile Application Isomorphic GUI Identification for Automated Robotic Testing. IEEE Softw. 202037, 67–74. [Google Scholar] [CrossRef]
  4. Gao, Y.; Tao, C.; Guo, H.; Gao, J. A Deep Reinforcement Learning-Based Approach for Android GUI Testing. In Proceedings of the Web and Big Web and Big Data: 6th International Joint Conference, APWeb-WAIM 2022, Nanjing, China, 25–27 November 2022; Proceedings, Part III. pp. 262–276. [Google Scholar] [CrossRef]
  5. Gao, J.Z. UASACT 2023 Keynote Talk: Smart City Traffic Drone AI Cloud Platform—Intelligence, Big Data, and AI Cloud Infrastructure; Keynote presented at UASACT 2023, Kaohsiung Exhibition Center, Taiwan. Sponsored by TDECA, IEEE CISOSE 2023, and IEEE Future Technology; San Jose State University: San Jose, CA, USA, 2023. [Google Scholar]
  6. Gao, J.; Wang, D.; Lin, C.P.; Luo, C.; Ruan, Y.; Yuan, M. Detecting and learning city intersection traffic contexts for autonomous vehicles. J. Smart Cities Soc. 20221, 1–27. [Google Scholar] [CrossRef]
  7. Matsuzaka, Y.; Yashiro, R. AI-Based Computer Vision Techniques and Expert Systems. AI 20234, 289–302. [Google Scholar] [CrossRef]
  8. Ayub Khan, A.; Laghari, A.A.; Ahmed Awan, S. Machine Learning in Computer Vision: A Review. EAI Endorsed Trans. Scalable Inf. Syst. 20218, e4. [Google Scholar] [CrossRef]
  9. Wotawa, F.; Klampfl, L.; Jahaj, L. A framework for the automation of testing computer vision systems. In Proceedings of the 2021 IEEE/ACM International Conference on Automation of Software Test (AST), Madrid, Spain, 20–21 May 2021; pp. 121–124. [Google Scholar] [CrossRef]
  10. Hassaballah, M.; Hosny, K.M. (Eds.) Recent Advances in Computer Vision: Theories and Applications, 1st ed.; Volume 1: Studies in Computational Intelligence; Springer: Cham, Switzerland, 2019; pp. 113–187. [Google Scholar] [CrossRef]
  11. King, T.M.; Arbon, J.; Santiago, D.; Adamo, D.; Chin, W.; Shanmugam, R. AI for Testing Today and Tomorrow: Industry Perspectives. In Proceedings of the 2019 IEEE International Conference On Artificial Intelligence Testing (AITest), Newark, CA, USA, 4–9 April 2019; pp. 81–88. [Google Scholar] [CrossRef]
  12. Marijan, D.; Gotlieb, A. Software Testing for Machine Learning. Proc. Aaai Conf. Artif. Intell. 202034, 13576–13582. [Google Scholar] [CrossRef]
  13. Sugali, K. Software Testing: Issues and Challenges of Artificial Intelligence & Machine Learning. Int. J. Artif. Intell. Appl. 2021. Available online: https://ssrn.com/abstract=3948930 (accessed on 17 July 2025).
  14. Amalfitano, D.; Faralli, S.; Hauck, J.C.R.; Matalonga, S.; Distante, D. Artificial Intelligence Applied to Software Testing: A Tertiary Study. ACM Comput. Surv. 202356, 1–38. [Google Scholar] [CrossRef]
  15. Baqar, M.; Khanda, R. The Future of Software Testing: AI-Powered Test Case Generation and Validation. In Proceedings of the Intelligent Computing; Arai, K., Ed.; Springer: London, UK, 2025; pp. 276–300. [Google Scholar]
  16. Salman, H.; Uddin, M.N.; Acheampong, S.; Xu, H. Design and Implementation of IoT Based Class Attendance Monitoring System Using Computer Vision and Embedded Linux Platform; Springer International Publishing: Cham, Switzerland, 2019; Volume 927, pp. 25–34. [Google Scholar] [CrossRef]
  17. Khemasuwan, D.; Sorensen, J.S.; Colt, H.G. Artificial intelligence in pulmonary medicine: Computer vision, predictive model and COVID-19. Eur. Respir. Rev. 202029, 200181. [Google Scholar] [CrossRef] [PubMed]
  18. Gargin, V.; Radutny, R.; Titova, G.; Bibik, D.; Kirichenko, A.; Bazhenov, O. Application of the computer vision system for evaluation of pathomorphological images. In Proceedings of the 2020 IEEE 40th International Conference on Electronics and Nanotechnology (ELNANO), Kyiv, Ukraine, 22–24 April 2020; pp. 469–473. [Google Scholar] [CrossRef]
  19. Shams, A.; Schekelmann, A.; Mülder, W. A proof of concept for providing traffic data by AI based computer vision as a basis for smarter industrial areas. Procedia Comput. Sci. 2022201, 239–246. [Google Scholar] [CrossRef]
  20. Moore, S.; Liao, Q.V.; Subramonyam, H. fAIlureNotes: Supporting Designers in Understanding the Limits of AI Models for Computer Vision Tasks. In Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems, New York, NY, USA, 23–28 April 2023. [Google Scholar] [CrossRef]
  21. Sharma, A.; Prasad, K.; Chakrasali, S.V.; Gowda V, D.; Kumar, C.; Chaturvedi, A.; Pazhani, A.A.J. Computer vision based healthcare system for identification of diabetes & its types using AI. Meas. Sens. 202327, 100751. [Google Scholar] [CrossRef]
  22. Fuentes-Peñailillo, F.; Carrasco Silva, G.; Pérez Guzmán, R.; Burgos, I.; Ewertz, F. Automating Seedling Counts in Horticulture Using Computer Vision and AI. Horticulturae 20239, 1134. [Google Scholar] [CrossRef]
  23. Zhou, L.; Zhang, L.; Konz, N. Computer Vision Techniques in Manufacturing. IEEE Trans. Syst. Man, Cybern. Syst. 202353, 105–117. [Google Scholar] [CrossRef]
  24. Tang, Y.M.; Kuo, W.T.; Lee, C. Real-time Mixed Reality (MR) and Artificial Intelligence (AI) object recognition integration for digital twin in Industry 4.0. Internet Things 202323, 100753. [Google Scholar] [CrossRef]
  25. Li, C.H.; Chow, E.W.H.; Tam, M.; Tong, P.H. Optimizing DG Handling: Designing an Immersive MRsafe Training Program. Sensors 202424, 6972. [Google Scholar] [CrossRef] [PubMed]
  26. Yazdi, M. Augmented Reality (AR) and Virtual Reality (VR) in Maintenance Training. In Advances in Computational Mathematics for Industrial System Reliability and Maintainability; Springer Series in Reliability Engineering; Springer: Cham, Switzerland, 2024; pp. 169–183. [Google Scholar]
  27. Kalluri, P.R.; Agnew, W.; Cheng, M.; Owens, K.; Soldaini, L.; Birhane, A. Computer-vision research powers surveillance technology. Nature 2025643, 73–79. [Google Scholar] [CrossRef]

Авторы: Jerry Gao, Radhika Agarwal