В данной работе исследуется применение технологии обнаружения и различения изображений с использованием искусственного интеллекта (ИИ) для решения проблем, связанных со смешанным ассортиментом и дефектами, встречающимися в процессах производства и упаковки крепежных изделий. Система обнаружения дефектов в основном использует модель YOLOv4-tiny с настройкой параметров и методами расширения данных. Система обнаружения смешанного ассортимента построена с использованием сети U-Net-Light и сиамской сети. Результаты исследования показывают, что разработанные системы действительно могут заменить или помочь персоналу на месте в проведении эффективных и точных проверок и отбора.
1. Введение
Крепежные изделия, являющиеся важнейшим компонентом производственного процесса на последующих этапах цепочки поставок стали и железа, часто называют «рисом промышленности» за их незаменимость. Они находят применение в самых разных секторах, таких как здравоохранение, автомобилестроение, аэрокосмическая промышленность, бытовая техника и строительство. Тайвань занимает лидирующие позиции в мире, обеспечивая более одной шестой мирового производства винтов. Основным производственным центром является район Ганшань в Гаосюне на юге Тайваня, на долю которого приходится 70% экспорта.
Однако с 1995 года рост стоимости земли и рабочей силы вынудил многих тайваньских производителей винтов перенести производство в материковый Китай. Этот сдвиг, в сочетании с передачей тайваньских технологий, привел к тому, что Китай стал крупнейшим в мире экспортером винтов, обогнав Тайвань. Для противостояния этой конкуренции Тайвань сосредоточился на повышении конкурентоспособности своей отрасли крепежных изделий.
В ответ на это правительство Тайваня содействует цифровой трансформации малых и средних предприятий (МСП). Тайваньский металлургический центр создал демонстрационную линию интеллектуального производства для отрасли крепежных изделий, предлагающую такие услуги, как проектирование пресс-форм, анализ ковки, оптимизация процессов, онлайн-измерение качества и диагностика оборудования. Это направлено на содействие внедрению промышленных облачных систем и стимулирование роста в отрасли крепежных изделий.
Чтобы преодолеть ценовую конкуренцию, тайваньская индустрия крепежных изделий переходит к производству специализированной продукции среднего и высокого ценового сегмента. Эта продукция, отличающаяся более высоким технологическим уровнем и лучшим качеством, включает в себя автомобильные винты, винты для аэрокосмической отрасли, а также винты для биомедицинских технологий, таких как зубные имплантаты. Переориентация на разработку высококачественной продукции является общей целью игроков тайваньской индустрии крепежных изделий, стремящихся выйти на рынки крепежных изделий с высокой добавленной стоимостью.
2. Исследовательские материалы
2.1. Выявление дефектов крепежных элементов
Трещины в винтах могут возникать по разным причинам, например, из-за термических напряжений во время термообработки металла или процессов ковки . Обнаружение этих трещин, особенно на головках крепежных элементов , представляет собой сложную задачу. На рис. 1 показан пример трещин в винтах. Хотя используются автоматизированные оптические контрольные машины (АОКМ), они часто фокусируются на проверке размеров, оставляя ручной контроль для обнаружения трещин, образовавшихся в результате ковки.
Такой ручной подход необходим, поскольку дефекты, попадающие в допустимые диапазоны, приводят к ложным срабатываниям в автоматизированных системах. В результате производители несут более высокие затраты на рабочую силу и сталкиваются с проблемой усталости инспекторов. Для решения этой проблемы мы предлагаем интегрировать ИИ в машины АОКМ. Это позволит революционизировать ручной контроль, минимизировать ошибки, повысить точность идентификации дефектов и снизить зависимость от персонала на месте. Результатом станет значительное снижение затрат на рабочую силу и повышение эффективности идентификации дефектов крепежных элементов.
2.2. Выявление смешанных комплектов крепежных изделий
Поставка смешанных наборов крепежных элементов, когда разные типы упаковываются вместе, является распространенной практикой в отрасли, но часто приводит к коммерческим спорам. Это особенно важно в таких секторах, как автомобильная и аэрокосмическая промышленность, где качество продукции имеет первостепенное значение: один нестандартный винт может нарушить работу автоматизированных сборочных линий, вызывая дефекты или повреждение оборудования. В аэрокосмической отрасли дефектный винт может привести к катастрофическим последствиям, ставя под угрозу целостность всего самолета.
По мере развития отрасли крепежных изделий растет спрос на строгий контроль качества продукции, не оставляющий места для ошибок. Для решения этой проблемы производители обращаются к технологиям контроля на основе искусственного интеллекта, чтобы повысить качество и предотвратить существенные потери.
На Тайване отрасль крепежных изделий в значительной степени полагается на ручной отбор проб и автоматизированные сортировочные машины. Однако особенности индивидуального производства создают проблемы на этапе окончательной упаковки, что приводит к смешанному ассортименту (иллюстрировано на рис. 2). Для решения этой проблемы мы предлагаем интеллектуальную систему обнаружения смешанного ассортимента крепежных изделий, направленную на повышение эффективности, предотвращение путаницы и защиту репутации производителей крепежных изделий.

Рис. 1. Пример трещин в винтах и изображение дефекта с подписями.

Рис. 2. Упаковка.
3. Обзор литературы
В последние годы достижения в области обработки изображений стали ключевыми для обнаружения дефектов продукции, особенно при контроле дефектов поверхности. Методы, основанные на машинном обучении, такие как машины опорных векторов [1] и деревья решений [2], опираются на признаки, извлеченные в ходе предварительной обработки изображений (например, дилатация, эрозия, бинаризация и обнаружение границ) [3]. Однако ручное извлечение признаков может быть подвержено неточностям из-за неоптимальных проектных решений.
Глубокое обучение , в частности сверточные нейронные сети (CNN), предлагает автоматическое извлечение признаков, преодолевая сложности ручных методов. CNN находят применение в трех областях:
- Обнаружение объектов с использованием таких архитектур, как R-CNN [4] или YOLO [5], [6], [7], [8].
- Сегментация изображений, включая семантическую, экземпляровую и паноптическую сегментацию [9], [10], [11], [12], [13], [14], [15], [16], [17], [18], [19], [20], [21], [ 22 ], [23].
- Распознавание изображений, охватывающее такие задачи, как распознавание рукописного текста [24]. В недавних исследованиях глубокое обучение применялось для обнаружения дефектов винтов. Например, в [25] модель переноса обучения на основе VGG16 классифицировала дефекты винтов (например, повреждение резьбы) как присутствующие или отсутствующие.
В [26] использовалась архитектура LeNet-5 [27] для различения винтов без дефектов, с загрязненной поверхностью, поврежденных и сорванных винтов. Однако эти подходы сосредоточены на классификации всего изображения, им не хватает точности и гибкости.
Для решения этой проблемы мы предлагаем подход к обнаружению объектов, позволяющий точно определить местоположение дефектов. Модели обнаружения объектов делятся на две категории: двухэтапные (например, R-CNN [28] , Fast R-CNN [29] , Faster R-CNN [30] ) и одноэтапные (например, SSD [31], серия YOLO [5], [6], [7], [8]).
Двухэтапный подход генерирует кандидаты на ограничивающие рамки перед классификацией, в то время как одноэтапный подход одновременно генерирует рамки и выполняет классификацию. В данном исследовании обнаружение объектов используется для выделения дефектов, что позволяет более точно оценить их серьезность, что крайне важно для отраслей, где незначительные дефекты могут быть допустимы.

Рис. 3. Отображение изображения неравномерного освещения.
4. Методы исследования и результаты эксперимента
Данное исследование сосредоточено на двух ключевых проблемах: обнаружении и распознавании поверхностных дефектов на винтах и идентификации винтов смешанного типа. Для обнаружения поверхностных дефектов в промышленности обычно используется технология AOI, но она имеет ограничения в адаптации к различным условиям освещения. Изображения дефектов часто не соответствуют требованиям распознавания при разных источниках света , особенно когда дефекты малы и нечетки. На рис. 3 показана проблема неравномерного освещения. Для точной идентификации необходима корректировка источников света.
В области идентификации винтов смешанного типа промышленность преимущественно полагается на методы распознавания AOI (оптической области интереса). Как правило, признаки извлекаются из текущего производства винтов и сравниваются. Если сходство падает ниже требуемого порога (например, 99%), винт считается не входящим в текущее производство.
Однако тайваньская винтовая промышленность движется к высокотехнологичному, диверсифицированному производству. Одна линия может включать тысячи вариантов винтов, как показано на рис. 4. Учитывая эту сложность, использование сопоставления на основе признаков требует хранения данных почти для тысячи вариантов винтов, что оказывается трудоемким из-за контекстных факторов при извлечении, таких как регулировка освещения и то, являются ли винты частью конвейерной системы.

Рис. 4. Схематическое изображение различных крепежных элементов.
4.1. Интеллектуальная модель обнаружения дефектов крепежных элементов
Для ускорения вывода модели в данном исследовании используется архитектура YOLOv4-tiny, облегченный вариант YOLOv4 [9] . YOLOv4-tiny включает четыре ключевых компонента: (1) Input, обрабатывающий входные изображения; (2) Backbone , включающий блоки CBL (свертка, пакетная нормализация, LeakyReLU) и CSP (межэтапные частичные соединения); (3) Neck , использующий структуру пирамидальной сети признаков (FPN) для интеграции; и (4) Head, обрабатывающий признаки из области шеи для создания карт признаков размером 13 × 13 и 26 × 26. Каждая ячейка сетки на этих картах предсказывает три ограничивающих прямоугольника с координатами смещения, оценкой достоверности и значениями вероятности класса. Такая конструкция оптимизирует время вычислений, сохраняя при этом точность. Архитектура показана на рис. 5.
Таблица 1. Сравнение методов.
| Точность | Отзывать | F1-мера | Точность | ||
|---|---|---|---|---|---|
| Метод 1 | Дефект 1 | 72,91% | 99,60% | 84,19% | 60,10% |
| Дефект 2 | 100.00% | 20,60% | 34,16% | ||
| Метод 2 | Дефект 1 | 74,22% | 99,60% | 85,06% | 80,70% |
| Дефект 2 | 99,36% | 61,80% | 76,20% | ||
| Метод 3 | Дефект 1 | 73,78% | 99,60% | 84,77% | 80,80% |
| Дефект 2 | 99,36% | 62,00% | 76,35% |
YOLOv4-tiny использует обобщенную функцию потерь пересечения над объединением (CIOU), учитывающую три ключевых фактора: перекрытие между предсказанными и целевыми ограничивающими рамками, расстояние до центроида и соотношение сторон (уравнение (1)). Здесь b и представляют собой прогнозируемые и целевые центроиды прямоугольников. — евклидово расстояние, c — длина диагонали минимального охватывающего прямоугольника, v обозначает сходство соотношений сторон, и корректируется в зависимости от величины v.

В этом исследовании мы собрали набор данных из 1000 шестигранных винтов с различными дефектами поверхности. Эти винты были многократно сфотографированы с помощью роторного индексирующего устройства с регулировкой освещения и углов.
В результате было получено 10 913 изображений, каждое размером 659 пикселей. 494 пикселя. Были аннотированы два типа дефектов: трещины внутри белого светового кольца были обозначены как незначительные дефекты (Дефект 2), а те, которые выходят за его пределы, — как существенные дефекты (Дефект 1), как показано на рис. 1.
Тренировочный набор включал 6507 изображений существенных дефектов и 4406 изображений незначительных дефектов, по 500 изображений на категорию в тестовом наборе. Для повышения эффективности обнаружения модели мы сравнивали различные факторы во время обучения, такие как методы аугментации данных (например, мозаичная аугментация, случайные изменения оттенка и углов, выбор якорного бокса и количество обучающих данных).

Рис. 5. Модель YOLOv4-tiny.
На первом этапе исследования были отдельно изучены три метода (методы 1–3), каждый из которых использовал 6030 обучающих изображений и 1000 тестовых изображений. Якорный бокс для метода 1 был определен на основе параметров, предоставленных автором оригинального YOLOv4-tiny, отобранных с помощью кластерного анализа. Для метода 2 параметры якорного бокса были получены из 10 913 собранных дефектных изображений с использованием кластерного анализа для установления новых параметров.
Метод 3 использовал те же параметры якорного бокса, что и метод 2, но включал мозаичное расширение. В таблице 1 сравниваются экспериментальные результаты этих трех методов с использованием 6030 обучающих изображений и 1000 тестовых изображений. Результаты показывают улучшение точности обнаружения с 60% (метод 1) до примерно 80% (методы 2 и 3). Полученные данные подчеркивают значительное влияние соответствующей конфигурации якорного бокса на точность обнаружения, при этом мозаичное расширение оказывает некоторую помощь, но приводит к относительно незначительным различиям в повышении точности.
Для оценки влияния увеличения объема обучающих данных на обучение модели мы увеличили количество обучающих выборок с 6030 до 9913. Метод 5 использует те же параметры модели, что и метод 3, в то время как метод 4 отличается использованием поворота изображений для аугментации данных.
В таблице 2 представлены экспериментальные результаты для обоих методов, обеспечивающие точность около 89%. Метод 5 демонстрирует несколько более высокую точность, чем метод 4, возможно, из-за начальных изменений весов. Результаты из таблиц 1 и 2 показывают, что увеличение объема обучающих данных значительно повышает точность модели.
Для практического применения мы внедрили систему на полнофункциональном контрольно-измерительном оборудовании, проведя онлайн-тестирование с 400 винтами, каждый из которых имел существенные дефекты. Критерии обнаружения были четкими: наличие любого существенного дефекта считалось правильным обнаружением, в то время как отсутствие отклонений или незначительные дефекты представляли собой неправильные выводы.
Для учета вариаций, связанных с углом, мы провели два повторения теста для каждого винта. В таблице 3 сравниваются модели, обученные с помощью метода 4 и метода 5, и показано, что наивысшая точность в этом практическом тесте достигла 95,5%.
В данном исследовании дефект 1 является основным критерием для выявления дефектов, поэтому категоризация дефекта 2 оказывает минимальное влияние на общую картину. Если строгие требования предусматривают обнаружение всех случаев дефекта 1, достаточно определить дефект 2 как любой тип дефекта. Кроме того, система обрабатывает каждое изображение примерно за 0,02–0,03 с, удовлетворяя потребности в оценке в реальном времени для промышленных приложений.
Разработанная система обнаружения дефектов, протестированная на заводе по производству винтовых крепежных изделий в Гаосюне, постоянно совершенствуется на основе отзывов операторов для повышения производительности в будущем.
Таблица 2. Результаты тестирования после добавления обучающих изображений.
| Отзывать | F1-мера | Точность | |||
|---|---|---|---|---|---|
| Метод 4 | Дефект 1 | 92,50% | 93,80% | 93,15% | 88,80% |
| Дефект 2 | 93,11% | 83,80% | 88,21% | ||
| Метод 5 | Дефект 1 | 92,40% | 95,40% | 93,90% | 89,70% |
| Дефект 2 | 94,80% | 84,00% | 89,10% |
Таблица 3. Онлайн-тестирование в режиме реального времени.
| Дефект 1 №. | Дефект 2 №. | Точность | ||
|---|---|---|---|---|
| Метод 4 | 1-е тестирование | 365 | 35 | 91,25% |
| 2-е тестирование | 367 | 33 | 91,75% | |
| Метод 5 | 1-е тестирование | 375 | 25 | 93,75% |
| 2-е тестирование | 382 | 18 | 95,50% |
4.2. Интеллектуальное обнаружение смешанных комплектующих крепежных элементов
Из-за ограничений существующих моделей обнаружения объектов их прямое применение к обнаружению смешанного ассортимента представляет собой сложную задачу. Например, широко используемые модели, такие как YOLO, требуют сбора всех известных типов крепежных элементов для всестороннего обучения, чтобы эффективно выполнять обнаружение и классификацию объектов.
Однако при использовании этого подхода для создания модели классификации крепежных элементов часто возникают трудности в обучении из-за большого количества категорий и ограниченного количества образцов. Кроме того, при появлении новых типов крепежных элементов существующие модели необходимо переобучать, что создает практические проблемы при обнаружении смешанного ассортимента крепежных элементов.
Поэтому мы считаем, что использование модели глубокого обучения, основанной на оценке сходства, является гибким и эффективным подходом. Предлагаемое нами решение использует двухэтапную архитектуру модели (см. рис. 6). На первом этапе извлекаются все объекты на изображении, что позволяет обнаруживать изделия текущего производства, крепежные элементы, не выпускаемые в настоящее время, и посторонние предметы.
На втором этапе оценивается сходство между извлеченными объектами и эталонными образцами без ограничений по типам крепежных элементов. Такая гибкость обеспечивает эффективное определение, учитывая новые типы крепежных элементов, внедряемые в производственную линию.
Первоначальная модель обнаружения объектов основана на сочетании традиционных алгоритмов и глубокого обучения, с акцентом на сегментацию объектов. Она извлекает признаки с помощью традиционных методов и идентифицирует прямоугольные объекты путем извлечения контуров. Эта модель первого этапа изолирует крепежные элементы, позволяя второму этапу сосредоточиться на целевых объектах.
Для повышения точности предварительная сегментация изображения предсказывает маску (1 для областей объекта, 0 для фона). Умножение этой маски на исходное изображение позволяет добиться эффекта удаления фона, как показано на рис. 7. Затем объекты извлекаются по отдельности из этих обработанных изображений, которые служат входными данными для второго этапа.

Рис. 6. Процесс определения смешанных ассортиментов.
Модель первого этапа, известная как U-Net-Light, усовершенствует архитектуру U-Net, используя облегченный подход к сегментации объектов. В отличие от оригинальной U-Net, U-Net-Light уменьшает количество параметров за счет постепенного увеличения количества каналов карты признаков. Начальные шаги включают глубокие свертки с различными размерами ядра (3 × 3, 4 × 4 и 5 × 5), генерирующие три набора трехканальных карт признаков, объединенных в 27 каналов.
Последующие свертки с разделяемым уровнем глубины, максимальное объединение и повышение разрешения создают структуру, подобную U-Net, длясегментации изображений. Примечательно, что стандартные сверточные слои заменены на свертки с разделяемым уровнем глубины, что оптимизирует использование параметров. Визуальное представление этой улучшенной архитектуры модели представлено на рис. 8.
При разработке модели классификации крепежных элементов работа с многочисленными категориями и ограниченным количеством образцов в каждой категории представляет собой сложную задачу для обучения модели. В таких случаях рекомендуется переформулировать задачу классификации как задачу сравнения сходства. Это предполагает рассмотрение нейронной сети как функции преобразования, направленной на преобразование входных изображений в векторы признаков фиксированной размерности. Фокус смещается на определение того, принадлежат ли выходные признаки к одной и той же категории, без указания точной категории.
Сиамская сеть служит подходящей архитектурой для этой цели. В этой конфигурации два изображения подвергаются извлечению признаков в одной и той же базовой сети. Затем расстояния между признаками вычисляются с использованием евклидова расстояния (уравнение (2)). Используемая функция потерь — это контрастивная функция потерь (уравнение (3)), где Y обозначает метку, указывающую, принадлежат ли образцы к одной и той же категории (1 — к одному и тому же классу, 0 — к разным классам). — это евклидово расстояние между векторами признаков, а m — пороговое значение. Когда метка указывает на разные классы, расстояние между признаками должно быть меньше порогового значения m, чтобы возникли потери.


Рис. 7. Процесс разделения объектов.

Рис. 8. U-Net-Light.
В данном исследовании используется базовая архитектура нейронной сети, состоящая из восьми сверточных слоев с размером ядра 3 × 3. После каждых двух последовательных сверточных слоев выполняется операция максимального пулинга для уменьшения размерности карт признаков вдвое. После восьми раундов понижения разрешения признаки затем проходят через полносвязный слой, состоящий из 50 нейронов, для генерации выходных признаков. В качестве функции активации для каждого слоя используется LeakyReLU. Подробное описание этой архитектуры представлено на рис. 9.
В нашем исследовании по обнаружению смешанного ассортимента мы разработали двухэтапную модель. Сначала модель сегментации объектов извлекает объекты из эталонных образцов и изображений, полученных в ходе проверки. Затем сиамская модель вычисляет значения признаков для обоих типов изображений. Измеряя расстояния между признаками и применяя пороговое значение сходства, модель определяет, образуют ли проверенные объекты смешанный ассортимент.
Что касается параметров (таблица 4), модель сегментации использует 153 454 параметра для извлечения объектов, в то время как модель дискриминации использует 321 090 параметров для вычисления признаков и оценки сходства. Вся модель обнаружения смешанного ассортимента является легковесной и вычислительно эффективной, используя всего 474 544 параметра.

Рис. 9. Базовая сеть.
Таблица 4. Количество параметров модели.
| Модель | Модель сегментации | сиамская модель |
Модель обнаружения смешанного ассортимента |
|---|---|---|---|
| Количество параметров | 153,454 | 321,090 | 474,544 |
В этой модели на первом этапе используется модель сегментации, а на втором — модель обнаружения, построенная на основе сиамских сетей. Примеры изображений, используемых для тестирования, показаны на рис. 10, где оба крепежных элемента на изображении используются для вычисления признаков образцов. Затем эти признаки образцов сравниваются с признаками, извлеченными из крепежных элементов на изображениях, подлежащих проверке. Здесь пороговое значение расстояния между признаками установлено на уровне 1,5 (эмпирический параметр). Любое расстояние между признаками, превышающее этот порог, считается признаком несхожих объектов.

Рис. 10. Примеры изображений.

Рис. 11. Результаты двухэтапного тестирования модели.
На рис. 11 представлены результаты обнаружения, полученные с использованием модели обнаружения смешанного ассортимента. Рис. 11 (а) соответствует образцам, идентичным эталонному, что приводит к меньшим расстояниям между признаками. Рис. 11 (б) демонстрирует большие расстояния между признаками, указывая на большее несходство по сравнению с образцами. Рис. 11 (в) показывает относительно небольшие различия в расстояниях между признаками, предполагая, что этот объект с большей вероятностью будет ошибочно определен. Рис. 11 (г) представляет собой случай, когда объекты идентичны образцам, но произошла ошибка в определении.
В промышленной обработке изображений точность имеет значение наряду с быстрой обработкой данных. Длительные проверки могут остановить производство. Мы измерили время обработки данных для нашей модели обнаружения смешанного ассортимента на процессоре Intel Core i7-7800X и графическом процессоре NVIDIA GeForce GTX 1080Ti.
Тестирование с кадрами от 1 до 5 крепежных элементов показало, что, несмотря на быструю бинаризацию и вычисление сходства (0,05 с и 0,03 с), время классификации объектов увеличивается с увеличением количества объектов. Добавление одного крепежного элемента увеличивает время классификации на 0,05 с. При количестве объектов менее 10 время обработки остается менее одной секунды, что имеет решающее значение для эффективного потока производственной линии. Результаты представлены на рис. 12.

Рис. 12. Время вывода результатов для двух моделей.
5. Выводы
Крепежные изделия, необходимые в повседневной жизни и промышленном производстве, играют ключевую роль в экономике Тайваня. Обеспечение качества продукции имеет первостепенное значение для производителей. В данном исследовании используется технология распознавания изображений на основе искусственного интеллекта для улучшения процесса производства крепежных изделий, с акцентом на обнаружение и распознавание дефектов поверхности винтов.
Разработанная система, внедренная на заводе в Гаосюне, постоянно совершенствуется на основе отзывов операторов с целью повышения точности. Во второй части исследования рассматривается смешанный ассортимент с использованием двухэтапной модели, сочетающей сегментацию объектов и сиамские сети для эффективного обнаружения и классификации. Моделирование подтверждает эффективность технологии в интеллектуальном обнаружении дефектов и смешанного ассортимента. Такой подход значительно повышает эффективность работы, снижая потери от возвратов и штрафов. Результаты исследования подчеркивают коммерческую ценность искусственного интеллекта в практических промышленных приложениях.
Литература
-
An intelligent real-time vision system for surface defect detection17th Int. Conf. on Pattern Recognition, Vol. 2004, ICPR 2004, Cambridge, UK (2004), pp. 239-242
- S.R. Aghdam, E. Amid, M.F. Imani, A fast method of steel surface defect detection using decision trees applied to LBP based features, in: 2012 7th IEEE Conf. on Industrial Electronics and Applications, ICIEA, Singapore, pp. 1447–1452.
- X. Yang, D. Qi, X. Li, Multi-scale edge detection of wood defect images based on the dyadic wavelet transform, in: 2010 Int. Conf. on Machine Vision and Human-Machine Interface, Kaifeng, China, 2010, pp. 120–123.
- R. Girshick, J. Donahue, T. Darrell, J. Malik, Rich feature hierarchies for accurate object detection and semantic segmentation, in: 2014 IEEE Conf. on Computer Vision and Pattern Recognition, 2014, Columbus, OH, USA, pp. 580–587.
- J. Redmon, S. Divvala, R. Girshick, A. Farhadi, You only look once: Unified, real-time object detection, in: 2016 IEEE Conf. Computer Vision and Pattern Recognition, CVPR, Las Vegas, NV, USA, pp. 779–788.
- J. Redmon, A. Farhadi, YOLO9000: better, faster, stronger, in: 2017 IEEE Conf. on Computer Vision and Pattern Recognition, CVPR, Honolulu, HI, USA, pp. 7263–7271.
- Redmon J., Farhadi A.
Yolov3: An incremental improvement(2018)arXiv preprint arXiv:1804.02767
- Bochkovskiy A., Wang C.Y., Liao H.Y.M.
Yolov4: Optimal speed and accuracy of object detection(2020)arXiv preprint arXiv:2004.10934
- Long J., Shelhamer E., Darrell T.
Fully convolutional networks for semantic segmentationIEEE Trans. Pattern Anal. Mach. Intell., 39 (2016), pp. 640-651
- H. Noh, S. Hong, B. Han, Learning deconvolution network for semantic segmentation, in: 2015 IEEE Int. Conf. on Computer Vision, ICCV, Santiago, Chile, 2015, pp. 1520–1528.
- O. Ronneberger, P. Fischer, T. Brox, Int. Conf. on Medical Image Computing and Computer-Assisted Intervention, Munich, Germany, in: U-net: Convolutional networks for biomedical image segmentation, pp. 234–241.
- Badrinarayanan V., Kendall A., Cipolla R.
Segnet: A deep convolutional encoder–decoder architecture for image segmentationIEEE Trans. Pattern Anal. Mach. Intell., 39 (2017), pp. 2481-2495
- K. He, G. Gkioxari, P. Dollár, R. Girshick, Mask r-cnn, in: IEEE Int. Conf. on Computer Vision, ICCV, Venice, Italy, 2017, pp. 2961–2969.
- Z. Huang, L. Huang, Y. Gong, C. Huang, X. Wang, Mask scoring r-cnn, in: 2019 IEEE/CVF Conf. on Computer Vision and Pattern Recognition, CVPR, Long Beach, CA, USA, 2019, pp. 6409–6418.
- D. Bolya, C. Zhou, F. Xiao, Y.J. Lee, Yolact: Real-time instance segmentation, in: 2019 IEEE/CVF Conf. on Computer Vision and Pattern Recognition, CVPR, Long Beach, CA, USA, pp. 9157–9166.
- Bolya D., Zhou C., Xiao F., Lee Y.J.
Yolact++: Better real-time instance segmentationIEEE Trans. Pattern Anal. Mach. Intell., 44 (2) (2020), pp. 1108-1121
- H. Liu, R.A.R. Soto, F. Xiao, Y.J. and Lee, YolactEdge: Real- time instance segmentation on the edge, in: 2021 IEEE Int. Conf. on Robotics and Automation, ICRA, Xi’an, China, 2020, pp. 9579–9585.
- S. Liu, J. Jia, S. Fidler, R. Urtasun, Sgn: Sequential grouping networks for instance segmentation, in: 2017 IEEE International Conference on Computer Vision, ICCV, Venice, Italy, pp. 3516–3524.
- De Brabandere B., Neven D., Van Gool L.
Semantic instance segmentation with a discriminative loss function(2017)arXiv preprint arXiv:1708.02551
- J. Dai, K. He, Y. Li, S. Ren, J. Sun, Instance-sensitive fully convolutional networks, in: 2016 European Conf. on Computer Vision, Amsterdam, The Netherlands, pp. 534–549.
- Y. Chen, G. Lin, S. Li, O. Bourahla, Y. Wu, F. Wang, X. Li, BANet: Bidirectional aggregation network with occlusion handling for panoptic segmentation, in: 2020 IEEE/CVF Conf. on Computer Vision and Pattern Recognition, CVPR, Seattle, WA, USA, pp. 3792–3800.
- W. Hong, Q. Guo, W. Zhang, J. Chen, W. Chu, LPSNet: A Lightweight Solution for Fast Panoptic Segmentation, in: 2021 IEEE/CVF Conf. on Computer Vision and Pattern Recognition, CVPR, Nashville, TN, USA, pp. 16741–16749.
- Mohan R., Valada A.
Efficientps: Efficient panoptic segmentationInt. J. Comput. Vision, 129 (2021), pp. 1551-1579
- C. Wu, W. Fan, Y. He, J. Sun, S. Naoi, Handwritten character recognition by alternately trained relaxation convolutional neural network, in: 2014 14th Int. Conf. on Frontiers in Handwriting Recognition, Hersonissos, Greece, pp. 291–296.
- D. Sauter, C. Atik, C. Schenk, R. Buettner, H. Baumgartl, Visual defect detection of metal screws using a deep convolutional neural network, in: 2021 IEEE 45th Annual Computers, Software, and Applications Conference, Madrid, Spain, pp. 303–311.
- Song L., Li X., Yang Y., Zhu X., Guo Q., Yang H.
Detection of micro-defects on metal screw surfaces based on deep convolutional neural networksSensors, 18 (11) (2018), p. 3709MDPI
- Y. LeCun, L. Bottou, Y. Bengio, P. Haffner, Gradient-based learning applied to document recognition, in: Proceedings of the IEEE, Vol. 86 No. 11, 1998, pp. 2278–2324.
- R. Girshick, J. Donahue, T. Darrell, J. Malik, Rich feature hierarchies for accurate object detection and semantic segmentation, in: 2014 IEEE Conf. on Computer Vision and Pattern Recognition, Columbus, OH, USA, 2014, pp. 580–587.
- R. Girshick, Fast r-cnn, in: 2015 IEEE International Conf. on Computer Vision, ICCV, Santiago, Chile, pp. 1440–1448.
- Ren S., He K., Girshick R., Sun J.
Faster r-cnn: Towards real-time object detection with region proposal networksIEEE Trans. Pattern Anal. Mach. Intell., 39 (6) (2016), pp. 1137-1149
- W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.Y. Fu, A.C. Berg, Ssd: Single shot multibox detector, in: 2016 European Conf. on Computer Vision, Amsterdam, The Netherlands, pp. 21–37.
Авторы: Huang-Chu Huang, Chih-Yung Chen, I-Chun Chen, Rey-Chue Hwang



