Детекция дефектов на снимках промышленных объектов методами современного компьютерного зрения: примеры

30.07.2021

1137

views

Сегодня мы поделимся опытом решения задачи детекции дефектов на снимках промышленных объектов методами современного компьютерного зрения.

Описание задачи

Рис.1 Схематичное изображение рассматриваемого проекта.

Машинное обучение (machine learning / ML) в общем и компьютерное зрение (computer vision / CV) в частности находят сегодня все больше применений в решении задач из промышленной области (пример). Начиная от задач нахождения бракованных деталей на конвейере и заканчивая управлением беспилотным транспортом — везде используются глубокие архитектуры, позволяющие детектировать многочисленные объекты разных категорий, предсказывать пространственное расположение объектов друг относительно друга и многое другое.

Сегодня мы рассмотрим кейс (проект Defects detector CV) по созданию прототипа программного обеспечения (ПО), которое использует нейронные сети, для того, чтобы на фото или видеопотоке детектировать объекты заданных категорий. В качестве предметной области в данном проекте выступила дефектоскопия промышленных труб.

Рис.2 Схематичное изображение парового котла, аналогичного тому, что рассматривался в проекте.

Кратко опишем предметную постановку задачи. В системах теплового обогрева городов и промышленных предприятий используются специальные паровые котлы (см. пример на рис 2), внутренность которых пронизана многочисленными трубами, которые в процессе эксплуатации могут получать различные повреждения (разного рода трещины, разрывы, деформации, коррозия и многое другое). Для того, чтобы своевременно устранять повреждения и поддерживать работоспособность котлов, периодически их работа останавливается, из них выкачиваются все жидкости, вскрывается проход во внутреннее пространство котла, которое представляет из себя ряд связанных пространственных отсеков без освещения, способных вместить внутри себя трехэтажный дом. После производят чистку поверхности труб, выстраивают промышленные леса, чтобы у специалистов по дефектоскопии была возможность получить прямой доступ к трубам, которые они будут осматривать и проверять с помощью специальной аппаратуры. После того как все дефекты обнаружены, производится замена или ремонт поврежденных участков, после чего, в свою очередь, необходимо разобрать леса, законсервировать котел и снова его запустить.

Обычно, большую часть времени отнимает сбор и демонтаж промышленных лесов и визуальный осмотр труб специалистами. Для того, чтобы сократить время на выполнение этих этапов, было предложено использовать пилотируемый дрон с системой освещения, фото и видеосъемки, который смог бы быстро облететь внутреннее пространство котла (в том числе, небольшие размеры дрона позволяют попасть во внутрь труднодоступных узких шахт, куда человеку сложно проникнуть), собрать данные для обработки, и с помощью алгоритмов компьютерного зрения выделить все обнаруженные дефекты.

Ниже речь пойдет о поиске и тестировании подходящих для рассматриваемой задачи глубоких архитектур машинного обучения и встраивание их в прототип программного обеспечения для анализа накапливаемых фото и видеоматериалов.

Мы постараемся осветить все основные этапы при разработке проекта, связанного с машинным обучением:

1. 1. сбор данных;
  2. разметка данных;
  3. дополнение данных (аугментация);
  4. обучение модели;
  5. оценка качества работы модели;
  6. подготовка к внедрению.

В первую очередь поговорим о самом главном с точки зрения машинного обучения объекте — о данных. Откуда их взять, в каком формате хранить, обрабатывать, как из меньшего количества данных получить больше информации и пр.

Набор данных

Рис.3 Пример объекта обучающей выборки — фото, сделанное при осмотре внутренности остановленного котла.

Данные в нашей задаче представлены классическим для CV образом — в виде цветных RGB снимков. На каждом снимке может как присутствовать сразу несколько дефектов, так и не присутствовать вовсе.

Ниже мы ответим на следующие основные вопросы о данных, которые возникают почти во всех проектах, связанных с компьютерным зрением:

Как разметить сырые данные?
Как разделить обучающую выборку на тестовую и обучающую?
В каком формате хранить разметку и как структурировать датасет?
Как, имея выборку скромного размера, добиваться приличного качества обучения?
В какой форме нужно делать предсказания?
Как оценивать качество новых предсказаний?

Виды задач распознавания образов на изображениях

Рис.4 Пример разного рода разметки для задачи детекции объектов на изображениях из датасета MS COCO. Иллюстрация из репозитория detectron2.

Сложность задачи в области компьютерного зрения отчасти определяется формой предсказания. Отметим сразу, что задача распознавания образов на изображениях логически подразделяется на две подзадачи:

выделения области интереса;
классификации объекта в области интереса.

В зависимости от формы области интереса, задачи детекции делят на детектирование в виде ограничивающих прямоугольников (bounding boxes), в виде многоугольников, в виде битовых масок, в виде точек интереса и пр.

В нашей задаче были выбраны ограничивающие прямоугольники, но эксперименты с многоугольными областями также проводились.

Помимо формы предсказания также необходимо было определить формат датасета (способ организации данных и аннотаций). Формат датасета обычно определяется группами исследователей и разработчиков, которые создают значимые датасеты или архитектуры. В нашем случае датасеты рассматривались в форматах MS COCO и YOLO.

Про устройство формата MS COCO и формы предсказаний можно узнать здесь:

Create COCO Annotations From Scratch – Immersive Limit

This tutorial will teach you how to create a simple COCO-like dataset from scratch. It gives example code and example…

www.immersivelimit.com

Разметка данных

Рис.5 Демонстрация работы CVAT для разметки дефекта трубы в виде полигональной маски.

Для того, чтобы разметить сырые данные, существует несколько основных способов. Во-первых, можно воспользоваться услугами сервисов облачной распределенной разметки данных, вроде Amazon Mechanical Turk или Яндекс.Толока. Во-вторых, если данные приходят не из реального мира, а генерируются искусственно, то разметку можно генерировать вместе с данными. Ну и самым доступным способом является использование специализированного ПО для разметки данных.

В нашей задаче мы воспользовались вторым и третьим способами. Про наш генератор синтетических данных можно прочитать здесь, а в качестве ПО для разметки мы выбрали Intel CVAT (заметка про инструмент на хабр), который был развернут на сервере заказчика.

Некоторые альтернативные инструменты разметки:

Усиление обобщающей способности

В случае, когда данных для обучения мало и необходимо добиться хорошей обобщающей способности от алгоритма, обычно прибегают к разного рода “трюкам” — манипуляциям с данными.

Такие трюки могут быть связаны как с процессом обучения (использование беггинга или дропаута), так и с процессом подготовки данных (аугментация данных). При решении нашей задачи, чтобы расширить исходный датасет небольшого размера, мы прибегли к аугментации данных — различным преобразованиям исходных данных, таким как добавление шума к изображению, различным поворотам и растяжениям, обесцвечиванием и к многому другому. Для обеих архитектур были подготовлены одинаковые датасеты с аугментированными изображениями, хотя стоит отметить, что у обоих фреймворков есть встроенные возможности автоматической аугментации в процессе обучения (заложено в возможностях фреймворков).

Подробнее про примеры аугментации данных в задачах компьютерного зрения можно прочитать здесь:

Data Augmentation for Deep Learning

Overview of popular augmentation packages and PyTorch examples

towardsdatascience.com

Data Augmentation | How to use Deep Learning when you have Limited Data — Part 2

This article is a comprehensive review of Data Augmentation techniques for Deep Learning, specific to images. This is…

medium.com

Метрики качества

Для того, чтобы измерять качество работы алгоритма после процесса обучения на тестовой выборке, в задачах детекции объектов на изображениях традиционно используют метрику mean average precision (mAP), рассчитанную для каждого класса по отдельности и усредненную для всех классов. Значение этой метрики рассчитывается при разных уровнях характеристики Intersection over Union (IoU). Мы не будем подробно останавливаться на разъяснении устройства этих функций, всем заинтересованным предлагаем пройти по ссылкам ниже на статьи и заметки, которые помогут освоиться в данном вопросе. Но все же поясним некоторые основные моменты оценки качества работы алгоритмов в нашей задаче.

Для оценки результатов были выбраны следующие метрики:

mAP (mean average precision) — среднее значение точности по всем классам (поскольку у термина могут быть разные трактовки, рекомендуем ознакомиться с различными вариантами здесь).
AP (средняя точность) — средняя точность по каждому отдельному классу.
Precision Recall кривая.
Число случаев, когда дефект был обнаружен, и он на самом деле был (TP).
Число случаев, когда дефект был обнаружен, но его не было на самом деле (FP) т. е. ложное срабатывание.

Расчет метрик производился следующим образом. Так как целевым объектом для оценки был ограничивающий прямоугольник (bounding box), то интерес для оценки представляет три свойства:

Насколько модель уверена в предсказании. Чем выше уверенность, тем более надёжным будет результат. В идеале все правильные предсказания должны быть с высокой степенью уверенности.
Правильно ли предсказан класс объекта.
Насколько предсказанный ограничивающий прямоугольник совпадает с правильным.

Под правильным подразумевается тот ограничивающий прямоугольник, который был в разметке. Здесь появляется вопрос о важности качественной разметки для обучения нейронных сетей.

Рассмотрим пример вычисления метрик на основе примера из рис. ниже. Для этого определяется величина IoU, которая равна отношению площади пересечения прямоугольников (серый прямоугольник) к площади их объединения. Она принимает значения в отрезке [0;1]. Можно выбрать определённый порог и считать, что при превышении этого порога прямоугольники совпадают.

Определение TP:

Если IoU больше определенного порога и метки классов совпадают, то предсказание считается правильным.

Определение FP:

Если IoU меньше определенного порога и метки классов совпадают, то предсказание считается ложным.

На основании этих показателей рассчитывается точность и полнота. Если кратко, то точность показывает, насколько хорошо модель предсказывает дефекты определенного класса из тех, которые были обнаружены вообще. Чем больше значение, тем меньше ошибок совершается. Значение в отрезке от [0;1].

Рис.6 Пример рассчитанной Precision-Recall кривой для одного из классов дефектов для архитектуры DetectoRS.

Полнота показывает способность модели найти все дефекты определенного класса. Чем выше значение, тем больше будет обнаруживаться дефектов, но не все могут быть точно предсказаны. Эти величины взаимосвязаны. Как правило, чем больше точность, тем меньше полнота и наоборот. Т. к. предсказания зависят от некоторого порога принятия решения, то строят графики точности-полноты при разных значениях порога принятия решения для его оптимального определения и оценки возможностей модели.

Рис.7 Сравнение технических метрик для выбранных архитектур для процесса обучения.

Подробную статью про метрики качества и функции ошибок в задачах компьютерного зрения можно найти здесь. Про метрики в задачах машинного обучения в целом посмотрите эту замечательную заметку на хабре.

Заметку с примерами и объяснениями всей терминологии про метрики качества в CV можно посмотреть здесь:

mAP (mean Average Precision) for Object Detection

AP (Average precision) is a popular metric in measuring the accuracy of object detectors like Faster R-CNN, SSD, etc…

medium.com

Помимо метрик качества задачи детекции, на практике также важны технические метрики реализации, такие как скорость работы сети и место в памяти, которое сеть занимает, также важным фактором может стать время, необходимое для обучения.

Рис.8 Сравнение технических метрик для выбранных архитектур для процесса использования. * — тестирование проводилось на CPU AMD Ryzen 7 2700X Eight-Core Processor. ** — тестирование проводилось на видеокарте RTX 2080 Ti

Деление данных на обучающую и тестовую выборку

Для тестирования алгоритмов и оценки качества их работы часто нужно поделить данные на несколько частей. Одна часть используется при обучении, а другая для проверки обобщающей способности и подсчета метрик. Обычно это не представляет проблемы, но в нашем случае ситуация сложнее, т. к. каждое изображение (объект) может содержать несколько классов и в разном количестве. Изображение атомарно, и мы не можем его как-то разделить логически, чтобы число примеров каждого класса поделилось в нужном соотношении. Тут стоит заметить, что фактически можно разделить изображение на множество отдельных частей, в которых есть только один класс, но это приведёт к уничтожению изначальной структуры изображений.

Рассмотрим пример, изображенный на рис. — случай, когда каждый объект принадлежит одному классу:

Рис.9 Разделение данных на тестовую и обучающую выборку.

Особой проблемы здесь нет, и разделение на две выборки можно сделать достаточно просто. В нашем же случае картина с распределением объектов и классов будет такая:

Рис.10 Каждый объект может содержать иметь несколько классов.

Для решения проблемы разделения такого вида данных на подвыборки была использована библиотека scikit-multilearn и метод iterative_train_test_split. На вход подавалась матрица из нулей и единиц. Каждая строка обозначала изображение. Единицы стояли в столбцах с номерами соответствующими номерам классов. Если применить функцию к объектам на рис. выше, то получится следующее разделение:

Рис.11 Результат разделения на тестовую и обучающую выборку.

Конечно, здесь не учитывается количество повторений классов в рамках одного изображения (объекта), поэтому деление может быть несбалансированным.

Выбор архитектуры

На основе результатов анализа известных архитектур, собранных на paperwithcode для детектирования дефектов, были выбраны две архитектуры:

Рис.12 Сравнение архитектур на бенчмарке MS COCO object detection с сайта papesrwithcode.

Рис.13 Сравнение архитектур на бенчмарке MS COCO, полученное авторами архитектуры YOLOv4.

YOLOv4 попала в этот список из-за своей скорости работы. Мы хотели посмотреть на результаты разных моделей и выбрать итоговый вариант в зависимости от требований. Потенциально могла быть потребность в обработке видео, и для этого случая планировалось использовать YOLOv4. Более точная, но медленная работа ожидалась от DetectoRS.

Больше информации о том, как конструируются современные глубокие архитектуры для задач детекции объектов на изображениях, можно прочитать в этой статье или в заметке:

Review of Deep Learning Algorithms for Object Detection

Why object detection instead of image classification?

medium.com

DetectoRS

Данная архитектура базируется на использовании специального типа сверток (Switchable Atrouse Convolution / SAC) и в верхнем уровне устроена в виде рекурсивной пирамиды (Recursive Feature Pyramid / RFP), объединяющей локальные и глобальные признаки.

Реализация данной модели присутствует внутри фреймворка MMDetection.

Заметка об устройстве архитектуры:

DetectoRS — State of the Art Object Detector from Google Research

A detailed breakdown of exciting research of DetectoRS: Detecting Objects using Recursive Feature Pyramids and…

medium.com

YOLOv4

Эта модель делает свои предсказания на основе анализа изображения, разбивая его на квадратную сетку, как на рис. ниже:

Рис.15 Принцип работы из оригинальной статьи про YOLO.

Видео с объяснением работы можно найти здесь:

YOLO: You only look once (обзор архитектуры)

Представляем обзор архитектуры YOLO: You only look once от нашей команды.

medium.com

YOLOv4 — это дальнейшее улучшение (четвертая версия) оригинальной архитектуры как с точки зрения устройства, так и процесса обучения. В данной статье про YOLOv4 исследуется, как различные техники аугментации изображений влияют на конечный результат.

Фреймворки для обучения моделей в задачах CV

Для того, чтобы экспериментировать с различными архитектурами, выстраивать процессы загрузки изображений, аугментации данных, расчета метрик, визуализации результатов и решения других сопутствующих задач, исследователи создают собственные фреймворки, включающие весь функционал.

Для разработки под Python, двумя наиболее популярными фреймворками являются MMdetection (open source) и Detectron2 (Facebook research). Для разработки под C, существует фреймворк Darknet (open source). Подробнее про то, как использовать данные фреймворки можно прочитать в заметках:

How to train an object detection model with mmdetection

This tutorial shows you how to train a Pytorch mmdetection object detection model with custom dataset on Google Colab.

medium.com

How to embed Detectron2 in your computer vision project

Use the power of the Detectron2 model zoo.

medium.com

Installing Darknet on Windows

Installation Guide for Darknet on Windows 10

medium.com

MMDetection

Поскольку архитектура DetectoRS имела единственную реализацию на момент работы над проектом и эта реализация была написана на фреймворке MMDetection, имплементация архитектуры была основана на использовании данного фреймворка.

Устройство фреймворка

Для того, чтобы организовать процесс обучения сети с помощью данного фреймворка, необходимо:

подготовить веса при тренированной модели в формате .pth или прописать самостоятельно инициализацию новых весов;
написать конфигурационный файл в виде Python скрипта со всеми настройками для сети и описание хода обучения, валидации и пр.;
выбрать способ логирования процесса обучения (доступна запись в текстовый файл и логирование с помощью tensorboard);
организовать данные в файловой системе согласно выбранному типу разметки (доступны MS COCO, Pascal VOC и поддерживается возможность внедрение пользовательских форматов);
написать основный скрипт, собирающий воедино все перечисленные выше составные части.

После тестов локально на компьютере, на котором была установлена и развернута среда для работы с MMDetection, аналогично YOLOv4, сборка была перенесена внутрь NVidia Docker контейнера.

Обучение модели

Обучение модели занимало порядка 2 часов на RTX 2080 Ti. Прогресс можно было отслеживать с помощью запущенного tensorboard. Ниже приведены графики эволюции метрик и функции ошибки в процессе обучения на реальных данных.

Рис.16 Зависимость mAP от числа итераций обучения для архитектуры DetectoRS для датасета дефектов труб по 9 классам на валидационном датасете.

Рис.17 Зависимость функции потерь (multiclass cross entropy) от числа итераций обучения для архитектуры DetectoRS для датасета дефектов труб по 9 классам.

Подготовка модели для использования

После того, как сеть была обучена, ее конфигурационный файл и веса, были помещены внутрь отдельного NVidia Docker контейнера вместе с самим фреймворком и необходимыми зависимостями, для того, чтобы использовать готовую архитектуру внутри прототипа ПО для детекции дефектов.

Стоит отметить, что, несмотря на то, что данная архитектура обучается в несколько раз быстрее чем YOLOv4, она занимает в 2 раза больше памяти (500 MB для DetectoRS против 250 MB для YOLOv4 для хранения весов модели) и работает на порядок медленнее (1 с. для DetectoRS против 10 мс. для YOLOv4).

Малое время обучения DetectoRS отчасти объясняется тем, что веса базовых слоев сети (backbone и neck) были взяты из претренированной на ImageNet датасете аналогичной архитектуры и в процессе обучения не изменялись. Такой прием называется transfer learning. Про него вы можете подробнее прочитать в этой заметке:

An Introduction to Transfer Learning and Meta-Learning in Machine Learning and Artificial…

What is Transfer Learning?

medium.com

Darknet

Оригинальная реализация YOLOV4 написана на C c использованием CUDA C. Было принято решение использовать оригинальную реализацию модели, хотя обычно доминируют эксперименты на Python. Это накладывало свои ограничения и риски, связанные с необходимостью разбираться в коде на C, в случае каких-то проблем или переделки частей под свои нужды. Подробной документации с примерами не было, поэтому пришлось в некоторых местах смотреть исходный код на C.

Для успешного запуска нужно было решить несколько проблем:

Собрать проект.
Понять что необходимо для обучения модели.
Обучить модель.
Подготовить код для использования.

Сборка проекта

Первая сборка проекта происходила на Windows. Для сборки использовался CMake, поэтому особых проблем с этим не возникло. Единственная проблема была с компиляцией динамической библиотеки для обёртки на Python. Пришлось редактировать файл с проектом для Visual Studio, чтобы включить поддержку CUDA. Динамическая библиотека была нужна т. к. это позволяло использовать код на Python для запуска модели.

После было принято решение перенести сборку внутрь Docker контейнера. Для того, чтобы оставить возможность использовать видеокарту, был установлен NVIDIA Container Toolkit. Это позволяет достаточно просто организовать перенос проекта на другую машину при необходимости, а также упрощает дальнейшее использование. Благодаря наличию различных образов nvidia/cuda на Docker Hub можно достаточно просто менять конфигурации. Например, переключение между различными версиями CUDA или cuDNN.

Необходимые файлы для обучения

Для обучения модели нужно было подготовить данные и дополнительные файлы, как было описано в самом начале, а также правильно настроить конфигурационный файл. В репозитории предлагается взять за основу образец, который представляет из себя текстовый файл, и поменять в нужных местах значения параметров. В основном всё зависит от числа классов. Т. к. у нас число классов могло варьироваться, то постоянно так делать было нецелесообразно. Конфигурационный файл был шаблонизирован с помощью выражений jinja2. Код на Python позволял генерировать нужные конфигурационные файлы в зависимости от входных параметров.

Обучение модели

Обучение модели производилось в контейнере NVIDIA Docker. Занимало порядка 12 часов на RTX 2080 Ti. Прогресс можно было отслеживать, периодически копируя график функции потерь из контейнера на хост, где запущен контейнер. Красным показано значение mAP на тестовой выборке.

Подготовка модели для использования

После обучения модели была необходимость в ее использовании для визуализации результатов. От кода на Python пришлось отказаться, т. к. были проблемы с неожиданным завершением программы. Некоторые части кода пришлось дописать на языке С под собственные нужды.

Результаты

После всех экспериментов были выявлены следующие зависимости:

обучение на смеси данных (реальные + искусственные) приводит к небольшому ухудшению обобщающей способности (это связано с тем, что в данной итерации генератора синтетических данных присутствуют недостаточно разнообразные данные и однотипное освещение);
после недолгого подбора гиперпараметров для архитектуры DetectoRS удалось добиться показателя mAP (IoU=0.5) = 0.85, а для архитектуры YOLOv4 mAP(IoU=0.5) = 0.74;
некоторые типы дефектов, такие как разного рода трещины или выход труб из ряда, детектируются лучше, чем иные типы дефектов, например вздутие труб. Это можно объяснить не только дисбалансом и малым количеством примеров, но и тем, что для определения некоторых типов дефектов нужно больше пространственной информации (аналогично этому, в реальной детекции дефектов некоторые дефекты определяются на глаз, а некоторые требуют специальных измерительных приборов). Потенциально, использование помимо RGB каналов с камеры также еще и канала глубины (RGB-D) могло бы помочь с детектированием этих сложных пространственных дефектов: в этом случае мы смогли бы прибегнуть к методам и алгоритмам 3D ML.

Рис.19 Сравнение работы архитектур, обученных на разных датасетах: Real — только реальные изображение, Mixed — обучение на смеси реальных и синтетических изображений, Mask — обучение на реальных изображениях, с многоугольной разметкой областей.

Рис.20 Пример некорректной детекции модели DetectoRS, обученной на синтетических данных — отсутствие посторонних предметов в синтетическом датасете приводит к определению куска деревянной балки как трещины.

Рис.21 Пример детекции дефектов в виде многоугольных масок модели DetectoRS, обученной на датасете реальных изображений с соответствующей разметкой.

Рис.22 Пример детекции дефектов в виде прямоугольников для одного и того же изображения, с помощью разных архитектур.

Финальное решение с интерфейсом

В итоге был получен работающий прототип ПО с интерфейсом, который можно было бы просто использовать как со стороны пользователя, так и для разработчиков. Так как проекты на основе ML часто требуют вычислительных мощностей видеокарт NVIDIA для своей работы, то было принято решение сделать клиент-серверное приложение. При необходимости всё можно развернуть на одном компьютере. Если же есть в наличии свободный сервер с видеокартой, то основную логику можно перенести туда, оставив возможность любым пользователям использовать сервис даже на слабом по вычислительным возможностям компьютере.

Для архитектуры ПО была выбрана следующая схема:

Рис.23 Схема архитектуры прототипа ПО для детектирования дефектов на изображениях.

Все модели для детектирования дефектов работают внутри NVIDIA Docker. Остальные части, кроме Web-интерфейса, внутри обычных контейнеров Docker. Логика работы следующая:

Пользователь загружает изображение и выбирает нужную модель вместе с порогом принятия решения.
Изображение отправляется на сервер. Оно сохраняется на диске и сообщение с заданием на обработку попадает в RabbitMQ, в соответствующую очередь.
Модель берёт сообщение с заданием из очереди, когда готова выполнить предсказание. Выполняет предсказание и сохраняет необходимые файлы на диск. Отправляет сообщение в RabbitMQ о готовности результат.
Когда результат готов, он отображается в web-интерфейсе.

RabbitMQ занимается логикой по распределению и хранению сообщений во время работы. Из-за того что сервер, в общем случае, выполняет запросы быстрее, чем ML сервис, то естественным образом возникает очередь сообщений на обработку. Например, несколько пользователей могут загрузить изображения одновременно, но из-за нехватки ресурсов может быть запущена только одна модель каждого типа для обнаружения дефектов.

RabbitMQ также позволяет изолировать систему друг от друга и начать разработку независимо. При разработке сервера не надо дожидаться реализации ML моделей и наоборот. Каждая система общается только с RabbitMQ. В случае падения какого-то сервиса, сообщение не потеряется, если соответствующим образом настроить RabbitMQ.

Рис.24 Демонстрация работы созданного прототипа ПО для детекции дефектов на трубах.

В заключении отметим, что при разработке ПО, в котором используются модели машинного обучения, требуется очень много обмениваться данными и целыми пайплайнами экспериментов с членами команды. Для того, чтобы это было удобно делать, мы пользовались на протяжении всего проекта системой DVC. Примеры использования этой системы контроля данных и моделей машинного обучения можно посмотреть в этой статье на хабре.

Основные источники

Статьи описывающие SOTA глубокие архитектуры в задаче детекции:

Qiao, S., Chen, L.C. and Yuille, A., 2020. DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution. arXiv preprint arXiv:2006.02334.
Bochkovskiy, A., Wang, C.Y. and Liao, H.Y.M., 2020. YOLOv4: Optimal Speed and Accuracy of Object Detection. arXiv preprint arXiv:2004.10934.
Tan, M., Pang, R. and Le, Q.V., 2020. Efficientdet: Scalable and efficient object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10781–10790).

Статьи, посвященные выбору метрик качества в задачах детекции объектов на изображениях:

Everingham, M., Eslami, S.A., Van Gool, L., Williams, C.K., Winn, J. and Zisserman, A., 2015. The pascal visual object classes challenge: A retrospective. International journal of computer vision, 111(1), pp.98–136.

Статьи, посвященные обзору существующих методов детекции объектов на изображении:

Zhao, Z.Q., Zheng, P., Xu, S.T. and Wu, X., 2019. Object detection with deep learning: A review. IEEE transactions on neural networks and learning systems, 30(11), pp.3212–3232.

Фундаментальные монографии на тему современного компьютерного зрения:

Szeliski, R., 2010. Computer vision: algorithms and applications. Springer Science & Business Media.
Nixon, M. and Aguado, A., 2019. Feature extraction and image processing for computer vision. Academic press.
Jiang, X. ed., 2019. Deep Learning in Object Detection and Recognition. Springer.
Pardo, A. and Kittler, J. eds., 2015. Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications: 20th Iberoamerican Congress, CIARP 2015, Montevideo, Uruguay, November 9–12, 2015, Proceedings (Vol. 9423). Springer.

Авторы: Вадим Кондаратцев, Александр Крючков

Источник: https://medium.com/

Описание задачи

Набор данных

Виды задач распознавания образов на изображениях

Create COCO Annotations From Scratch – Immersive Limit

This tutorial will teach you how to create a simple COCO-like dataset from scratch. It gives example code and example…

Разметка данных

Усиление обобщающей способности

Overview of popular augmentation packages and PyTorch examples

This article is a comprehensive review of Data Augmentation techniques for Deep Learning, specific to images. This is…

Метрики качества

mAP (mean Average Precision) for Object Detection

AP (Average precision) is a popular metric in measuring the accuracy of object detectors like Faster R-CNN, SSD, etc…

medium.com

Деление данных на обучающую и тестовую выборку

Выбор архитектуры

Review of Deep Learning Algorithms for Object Detection

Why object detection instead of image classification?

medium.com

DetectoRS

DetectoRS — State of the Art Object Detector from Google Research

A detailed breakdown of exciting research of DetectoRS: Detecting Objects using Recursive Feature Pyramids and…

medium.com

YOLOv4

YOLO: You only look once (обзор архитектуры)

Представляем обзор архитектуры YOLO: You only look once от нашей команды.

medium.com

Фреймворки для обучения моделей в задачах CV

How to train an object detection model with mmdetection

This tutorial shows you how to train a Pytorch mmdetection object detection model with custom dataset on Google Colab.

Use the power of the Detectron2 model zoo.

Installation Guide for Darknet on Windows 10

medium.com

Устройство фреймворка

Обучение модели

Подготовка модели для использования

An Introduction to Transfer Learning and Meta-Learning in Machine Learning and Artificial…

What is Transfer Learning?

medium.com

Darknet

Сборка проекта

Необходимые файлы для обучения

Обучение модели

Подготовка модели для использования

Результаты

Финальное решение с интерфейсом

Основные источники

СХОЖИЕ СТАТЬИБОЛЬШЕ ОТ АВТОРА

Современные тенденции применения искусственнго интеллекта для проведения измерений на производстве

Контроль качества продукции с помощью рентгеновского излучения: виды систем и их возможности

Знаете ли Вы как работет машинное зрение: кратко о главном для любознательных

СХОЖИЕ СТАТЬИ БОЛЬШЕ ОТ АВТОРА