Система машинного зрения для автоматической классификации клеток крови

41
views

Точное обнаружение и классификация типов клеток крови на микроскопических изображениях имеют решающее значение для диагностики различных гематологических заболеваний. Цель данного исследования — разработка и оценка передовых архитектур для автоматизации обнаружения и классификации клеток крови с использованием недавно предложенных моделей YOLOv10 и YOLOv11, с особым акцентом на идентификацию эритроцитов (RBC), лейкоцитов (WBC) и тромбоцитов на микроскопических изображениях в качестве предварительного этапа общего анализа крови (ОАК). 

Методы: Набор данных для обнаружения клеток крови (BCCD) был обогащен с использованием методов аугментации данных для повышения надежности и разнообразия модели. Были проведены обширные эксперименты, включая полную инициализацию весов, передовые стратегии оптимизации и тщательную настройку гиперпараметров для архитектуры YOLOv11. 

Результаты: Модель YOLOv11-l достигла общей средней точности (mAP) 93,8%, что отражает ее высокую точность для различных типов клеток крови. 

Выводы: Полученные результаты подчеркивают эффективность архитектуры YOLOv11 в автоматизации высокоточной классификации клеток крови, демонстрируя ее потенциал для улучшения гематологического анализа и поддержки клинической диагностики.

1. Введение

Определение типов клеток крови имеет важное значение для диагностики и лечения различных гематологических заболеваний, включая лейкемию и лимфому. Микроскопическое исследование клеток крови остается решающим фактором в выявлении морфологических аномалий и необычного увеличения количества клеток, что жизненно важно для раннего вмешательства и лечения заболевания [1]. Такие анализы незаменимы для определения подтипов рака, определения тяжести гематологических заболеваний и разработки персонализированных стратегий лечения. Автоматизация анализа клеток крови может значительно ускорить и улучшить диагностические процессы, способствуя инновациям в медицинских технологиях.

Кровяные клетки можно разделить на три основных типа: эритроциты (красные кровяные клетки), лейкоциты (белые кровяные клетки) и тромбоциты. Эритроциты отвечают за транспортировку кислорода из легких в организм и возвращение углекислого газа в легкие. Их двояковогнутая форма увеличивает площадь поверхности для газообмена, обеспечивая поддержание достаточного уровня кислорода в крови. Лейкоциты защищают организм от инфекций и заболеваний, являясь частью иммунной системы. К этим клеткам относятся различные типы, такие как нейтрофилы, лимфоциты, моноциты, эозинофилы и базофилы. Отклонения в количестве лейкоцитов, особенно повышенный уровень при лейкемии, являются важными показателями скрытых проблем со здоровьем. С другой стороны, тромбоциты — это крошечные фрагменты клеток, необходимые для свертывания крови и заживления ран. Они помогают предотвратить кровотечение, слипаясь в месте повреждения; Однако низкое количество тромбоцитов (тромбоцитопения) может привести к чрезмерному кровотечению, тогда как высокое количество может увеличить риск тромбоза [1].

При таких заболеваниях, как анемия и тромбоцитопения, количественный анализ эритроцитов и тромбоцитов имеет важное значение для диагностики. Снижение количества эритроцитов при анемии указывает на уменьшение кислородной емкости организма, в то время как тромбоцитопения, характеризующаяся дефицитом тромбоцитов, может привести к нарушениям свертываемости крови. Точная и своевременная диагностика таких состояний жизненно важна для улучшения результатов лечения и более эффективного контроля течения заболевания [2].

Ручное обнаружение и классификация клеток крови занимает много времени и часто приводит к субъективным результатам, поскольку зависит от опыта и внимания наблюдателя. Кроме того, этот метод непрактичен для больших наборов данных и часто приводит к несоответствиям между медицинскими работниками [3].

В последние годы достижения в области компьютерного зрения и методов глубокого обучения создали значительные возможности для автоматизации медицинской визуализации. Сверточные нейронные сети (CNN) и другие методы искусственного интеллекта (ИИ) обладают большим потенциалом в прогнозировании и классификации клеток крови, что позволяет проводить более точную и быструю диагностику путем анализа сложных паттернов на медицинских изображениях. Интеграция подходов на основе ИИ и моделей глубокого обучения в исследования классификации клеток крови соответствует современным тенденциям исследований и способствует более глубокому пониманию применения машинного обучения в здравоохранении [4, 5].

Искусственный интеллект оказывает существенное влияние на обнаружение клеток крови, повышая точность и скорость диагностики. Алгоритмы ИИ способны обучаться на огромных массивах данных, выявляя закономерности и аномалии, которые могут быть упущены наблюдателями-людьми. Методы обнаружения объектов на основе глубокого обучения быстро развивались, предлагая более эффективные и точные решения по сравнению с традиционными подходами, и продолжают развиваться в этом направлении. Среди этих методов выделяется модель You Only Look Once (YOLO) благодаря своей способности балансировать скорость и точность. В то время как более ранние алгоритмы обнаружения объектов, такие как R-CNN, требовали многоэтапной обработки, YOLO может обнаруживать несколько объектов за один шаг, что делает его особенно выгодным для приложений реального времени.

Хотя в некоторых клинических условиях используются частично автоматизированные системы анализа клеток крови, их точность и скорость обработки часто нуждаются в улучшении. Подходы на основе YOLO потенциально могут преодолеть эти ограничения благодаря своей превосходной скорости и точности, предлагая более надежные и эффективные решения для клинической диагностики. Использование ИИ в анализе клеток крови позволяет медицинским работникам быстрее получать результаты, что способствует своевременному вмешательству и улучшению результатов лечения пациентов.

Основная исследовательская проблема в данном исследовании — необходимость в более эффективных и масштабируемых методах обнаружения и классификации клеток крови. Многочисленные исследования продемонстрировали успех алгоритмов обнаружения объектов на основе глубокого обучения на микроскопических изображениях клеток крови [6]. Хотя современные подходы на основе ИИ выглядят многообещающими, достижение высокой точности и производительности в реальном времени при микроскопической визуализации клеток крови остается критической проблемой.

Для решения этой проблемы в данном исследовании оцениваются новейшие архитектуры YOLO, в частности YOLOv10 и YOLOv11, которые предлагают улучшенные архитектуры и методы оптимизации, приводящие к высокой точности и быстрой обработке результатов. Эти модели обладают большим потенциалом для применения в медицинской визуализации, особенно при обнаружении микроскопических клеток крови.

В данном исследовании мы оцениваем производительность моделей YOLOv10 и YOLOv11 и их весов на наборе данных Blood Cell Count Detection (BCCD) [7], который состоит из разнообразной коллекции микроскопических изображений клеток крови. Морфологическая изменчивость набора данных BCCD предоставляет идеальную площадку для тестирования задач классификации. В ходе экспериментов на микроскопических изображениях клеток крови мы изучаем, как эти модели способствуют обработке медицинских изображений, особенно в контексте обнаружения клеток крови.

Основные результаты данного исследования заключаются в следующем: (1) исследование производительности YOLOv10 и YOLOv11 на наборе данных BCCD, который представляет собой значительное морфологическое разнообразие и проблемы классификации, (2) проведение сравнительного анализа этих моделей для оценки их сильных и слабых сторон в обнаружении микроскопических клеток крови и (3) демонстрация применимости современных методов обнаружения объектов на основе YOLO в клинической диагностике для решения критической потребности в скорости и точности анализа клеток крови.

Полученные результаты дают ценное представление о потенциальной интеграции методов глубокого обучения в здравоохранение, открывая путь к улучшению результатов лечения пациентов за счет диагностики с использованием искусственного интеллекта.

Дальнейшая структура данной статьи следующая: 

В разделе 2  рассматриваются смежные работы по обнаружению и классификации клеток крови с использованием методов глубокого обучения. 

В разделе 3  описываются материалы и методы, использованные в данном исследовании, включая стратегии расширения данных и подробности реализации моделей YOLO.

В  разделе 4 представлены экспериментальные результаты модели и оценки ее производительности. 

В разделе 5  обсуждаются полученные результаты, их значение для клинической практики и потенциальные ограничения исследования.

Наконец,  в разделе 6  подводятся итоги работы, суммируются основные результаты.

2. Обзор литературы

Обнаружение клеток крови с помощью глубокого обучения стало ключевым направлением исследований в медицинской визуализации, прежде всего благодаря способности моделей глубокого обучения автоматизировать и повышать точность классификации и диагностики клеток. Различные исследования, включая сверточные нейронные сети (CNN), рекуррентные нейронные сети (RNN) и трансферное обучение, продемонстрировали эффективность методов глубокого обучения в идентификации различных типов клеток крови, включая белые кровяные клетки (WBC) и красные кровяные клетки (RBC), а также в обнаружении таких аномалий, как рак и малярия.

Например, Патил и др. [8] использовали общедоступные базы данных для обнаружения клеток крови, предположив, что гибридная модель CNN и RNN достигла высокой успешности благодаря каноническому корреляционному анализу.

Хегде и др. [9] сравнили традиционные подходы к обработке изображений с методами глубокого обучения для классификации белых кровяных клеток. Применение CNN в обнаружении клеток крови хорошо зарекомендовало себя, их использовали для классификации лейкоцитов и обнаружения таких состояний, как серповидноклеточная анемия и лейкемия. Исследования показывают, что CNN могут эффективно улавливать сложные пространственные паттерны на изображениях клеток крови, что имеет решающее значение для различения различных типов клеток и обнаружения аномалий [10].

Архитектура CNN позволяет автоматически извлекать признаки, значительно уменьшая необходимость ручного вмешательства и повышая эффективность диагностики [11]. Кроме того, гибридные модели, которые сочетают CNN с другими методами глубокого обучения, показали перспективность в анализе изображений клеток крови во времени, тем самым улучшая производительность классификации [12].

Помимо сверточных нейронных сетей (CNN), для обнаружения клеток крови были исследованы и другие структуры глубокого обучения. Например, были предложены ансамблевые методы для смягчения проблем переобучения, обычно связанных с CNN, особенно при обнаружении малярийных паразитов на изображениях мазков крови [13]. Более того, передовые методы, такие как сети сжатия и возбуждения, улучшили представление признаков при обнаружении лейкемии в микроскопических образцах крови [14]. Эти инновации подчеркивают универсальность и адаптивность моделей глубокого обучения в решении задач, связанных со сложной природой изображений клеток крови.

Наличие больших наборов данных также сыграло решающую роль в развитии приложений глубокого обучения в обнаружении клеток крови. Такие наборы данных, как набор данных Raabin-WBC, предоставляют множество аннотированных изображений, которые облегчают обучение и проверку моделей глубокого обучения, тем самым улучшая их обобщающие возможности [15].

Интеграция этих наборов данных с алгоритмами глубокого обучения значительно повысила точность и скорость классификации клеток крови, что имеет важное значение для своевременной диагностики и лечения [16]. Непрерывное совершенствование архитектур глубокого обучения в сочетании с наличием обширных наборов данных, вероятно, еще больше расширит возможности этих моделей в клинических условиях, в конечном итоге улучшив результаты лечения пациентов за счет более точных и эффективных диагностических процессов.

Применение фреймворка YOLO для обнаружения клеток крови приобрело значительную популярность в последние годы благодаря его эффективности и точности в идентификации различных компонентов крови. Архитектура YOLO позволяет обнаруживать объекты в режиме реального времени, что особенно полезно в клинических условиях, где своевременная диагностика имеет решающее значение. Исследования показали, что YOLO может достигать высоких показателей точности при обнаружении эритроцитов, лейкоцитов и тромбоцитов [17].

Недавние достижения в вариантах YOLO, таких как YOLOv4 и YOLOv8, также способствовали улучшению производительности при обнаружении клеток крови. Мустаким и др. [18] использовали комбинацию Cross Stage Partial Network и GhostNet с Spatial Pyramid Pooling на YOLOv4 для обнаружения подтипов острого лимфобластного лейкоза на многоклеточных изображениях крови, демонстрируя адаптивность YOLO к сложным задачам медицинской визуализации.

Аналогично, Нуграха [19] интегрировал YOLOv8 с Detection Transformer (DETR), еще больше повысив точность обнаружения белых кровяных клеток, подчеркивая непрерывную эволюцию методологий на основе YOLO. Эти разработки подчеркивают важность интеграции передовых архитектур нейронных сетей для повышения производительности YOLO в медицинских приложениях.

Более того, улучшенные варианты YOLO решили проблемы, связанные с перекрывающимися клетками крови и позиционированием ограничивающей рамки. Автоматизация этого процесса с использованием систем на основе YOLO может значительно снизить нагрузку на медицинских работников и минимизировать человеческие ошибки при анализе крови [20]. Цзян и др. [12] предложили метод глубокого обучения с механизмом внимания, который повысил эффективность обнаружения, сосредоточившись на пространственных отношениях между перекрывающимися клетками, что является распространенной проблемой при визуализации клеток крови.

Такой подход не только повысил точность обнаружения, но и помог в подсчете клеток крови, что имеет решающее значение для диагностики различных гематологических заболеваний. Юджель и Четинташ [21] поставили перед собой цель разработать автоматическую систему классификации клеток крови с использованием архитектуры YOLOv9 и набора данных BCCD [7].

В разработанном сценарии с архитектурой YOLOv9 наблюдались различные алгоритмы оптимизации и скорости обучения. Была достигнута вероятность успеха около 92%. Сюй и др. [22] предложили облегченную модель на основе Tiny and Efficient YOLOF (TE-YOLOF) для решения проблемы низкой чувствительности обнаружения эритроцитов и повышения общей точности обнаружения. Было показано, что меньшее количество параметров обеспечивает более высокую вероятность успеха с этой моделью.

Лю и др. [23] предложили идею механизма внимания и разработали модель обнаружения YOLO-v3 на основе сжатия и возбуждения (ISE-YOLO). В этой модели улучшенный модуль SE был добавлен к различным структурным блокам YOLO. Экспериментальные результаты показали, что предложенная модель ISE-YOLO улучшила обнаружение лейкоцитов на 96,5%, эритроцитов на 92,7% и тромбоцитов на 89,6%.

Ван и др. [24] предложили YOLO-FMS, облегченную и эффективную модель на основе YOLOv5. Согласно экспериментальным результатам, YOLO-FMS показал среднюю точность (mAP) 92,5% на наборе данных BCCD и 87,6% на наборе данных Tuberculosis-Phonecamera.

В другом исследовании Мао и др. [25] разработали модель DWS-YOLO для обнаружения клеток крови. Эта модель включала несколько инновационных модулей, таких как облегченный модуль C3, улучшенный механизм совместного внимания, функция потерь Scylla-IoU и улучшенное мягкое подавление немаксимумов. Улучшенный механизм внимания, функция потерь и методы подавления повысили точность обнаружения, а облегченный модуль C3 сократил время вычислений.

Непрерывное развитие архитектур YOLO и интеграция передовых методов, таких как механизмы внимания и трансформационные модели, потенциально могут повысить точность и надежность анализа клеток крови в клинических условиях.

Обзор литературы показывает, что многие исследования проводились с использованием классических алгоритмов, но исследований YOLO гораздо меньше. Самые последние из этих исследований — это исследования с использованием алгоритма YOLOv9. В данном исследовании обнаружение клеток крови проводилось с использованием всех весов алгоритмов YOLOv10 и YOLOv11, и был проведен сравнительный анализ с высокими показателями успешности. 

В таблице 1  обобщены и сравнены результаты последних исследований по обнаружению клеток крови на основе YOLO с использованием набора данных BCCD. В ней показаны достижения, достигнутые различными моделями, включая недавно разработанные модели YOLOv10-l и YOLOv11-l. Модель YOLOv11-l особенно выделяется точностью 91,8% для класса «Тромбоциты», а также высокими показателями точности 90,2% при обнаружении эритроцитов и 99,0% при обнаружении лейкоцитов.

Таблица 1.  Сравнительный анализ литературы по обнаружению клеток крови на основе YOLO.

3. Материалы и методы

В данном исследовании был проведен всесторонний сравнительный анализ с использованием архитектур YOLOv10 и YOLOv11 для обнаружения клеток крови. В основу исследования лег набор данных BCCD, содержащий изображения эритроцитов, лейкоцитов и тромбоцитов. В рамках исследования для повышения эффективности обучения на наборе данных использовались данные BCCD, состоящие из дополненных изображений. Ниже представлены набор данных, применяемые методы и подробности проектирования.

3.1. Набор данных

Набор данных BCCD [7] — это микроскопический набор данных, используемый в данном исследовании.  На рисунке 1  представлены примеры изображений из этого набора данных. Он содержит изображения различных типов клеток крови, включая тромбоциты, лейкоциты и эритроциты. В наборе 364 изображения, отнесенных к трем классам: лейкоциты, эритроциты и тромбоциты. Всего этим классам присвоено 4888 меток. Этот набор данных часто используется для обучения и тестирования алгоритмов глубокого обучения для диагностики гематологических заболеваний, с акцентом на обнаружение и классификацию клеток крови на микроскопических изображениях.

Рисунок 1.  Примеры изображений из набора данных BCCD.

Набор данных BCCD особенно ценен для исследований в области обнаружения и классификации клеток крови, поскольку он представляет собой богатую коллекцию изображений, собранных в различных лабораторных условиях. Этот набор данных служит фундаментальным ресурсом для исследований в области автоматизированного анализа клеток крови, предоставляя эффективную платформу для оценки производительности алгоритмов глубокого обучения в задачах обнаружения и классификации объектов.

Расширение данных

Для повышения общей производительности модели и предотвращения переобучения к набору данных BCCD были применены различные методы аугментации. Операция переворота использовалась для горизонтального и вертикального преобразования изображений, что усилило способность модели распознавать симметричные объекты.

Операция поворота на 90° позволила модели обнаруживать объекты под разными углами путем поворота изображений по часовой стрелке, против часовой стрелки и вверх ногами. Операция обрезки позволила обрезать изображения на разных уровнях масштабирования, способствуя более эффективному обучению модели распознаванию объектов разного размера.

Аугментация оттенка, насыщенности, яркости и экспозиции, применяемая для корректировки цвета и освещения, изменяла цветовые тона, уровни насыщенности и яркость изображений, тем самым повышая устойчивость модели к изменяющимся условиям освещения. Эти методы повысили общее разнообразие модели, что привело к более надежному и обобщаемому процессу обучения [27]. В результате применения методов аугментации набор данных содержал 875 изображений для трех классов.

3.2. YOLOv10

YOLO стала ведущей архитектурой в области обнаружения объектов в реальном времени, обеспечив эффективный баланс между высокой производительностью и эффективностью. В архитектурные решения и цели оптимизации моделей YOLO постоянно вносятся инновации. Однако зависимость от подавления немаксимальных значений (NMS) на этапе постобработки ограничивает сквозное использование этих моделей и создает проблемы с задержкой, негативно влияя на общую производительность. Эта модель нового поколения устраняет недостатки, обнаруженные в предыдущих версиях YOLO, достигая эффективного баланса между производительностью и эффективностью. Устраняя зависимость от NMS и оптимизируя различные компоненты модели, YOLOv10 обеспечивает высокую производительность при значительно сниженной вычислительной нагрузке.

В YOLOv10 были внесены значительные улучшения в архитектуру модели и этапы постобработки для преодоления этих ограничений. Важно отметить разработку нового согласованного метода двойного назначения, исключающего необходимость использования NMS. Такой подход позволил достичь высокой точности при одновременном снижении задержки вывода, обеспечивая эффективную работу модели от начала до конца.

YOLOv10 выделяется как модель, предлагающая аналогичную или более высокую производительность, чем ее предыдущие версии, с меньшим количеством параметров и уменьшенной задержкой. Обширные оценки показывают превосходный баланс точности и задержки среди нескольких вариантов модели, включая YOLOv10-n, YOLOv10-s, YOLOv10-m, YOLOv10-b, YOLOv10-l и YOLOv10-x. Например, YOLOv10-s работает в 1,8 раза быстрее, чем модель RT-DETR-R18 на наборе данных COCO, сохраняя при этом аналогичное значение средней точности (AP) [28]. С другой стороны, YOLOv10-b демонстрирует на 46% меньшую задержку и на 25% меньше параметров по сравнению с YOLOv9-c при том же уровне производительности.

Архитектура YOLOv10 включает в себя базовую сеть на основе кросс-стадийной частичной сети (CSPNet), разработанную с использованием слоев сети агрегации путей (PAN) для сбора признаков в разных масштабах, несколько головок для обеспечения богатых сигналов контроля во время обучения и головку «один к одному», предназначенную для устранения необходимости в NMS во время вывода. Эта архитектура показана на  рисунке 2. Эти компоненты интегрированы в целостную стратегию проектирования модели, которая делает акцент на эффективности и точности. Эти инновации позволяют YOLOv10 демонстрировать впечатляющую производительность при сохранении высокой эффективности, что делает его современным решением для обнаружения объектов.

Рисунок 2.  Последовательные двойные назначения для обучения без NMS [ 29 ].

3.3. YOLOv11

YOLOv11 — это последняя версия алгоритма обнаружения объектов в реальном времени. В этом релизе значительно улучшены скорость и эффективность работы, а также внесены существенные усовершенствования по сравнению с предыдущими версиями. Усовершенствованная архитектура ядра и шеи обеспечивает более точное и эффективное извлечение признаков. Это повышает возможности обработки сложных задач, позволяя выполнять обнаружение объектов с большей точностью.

Одним из ключевых достижений в YOLOv11 является внедрение модуля C2PSA (Cross-Stage Partial with Self-Attention) в базовую архитектуру. Этот модуль объединяет преимущества сетей с кросс-стадийным частичным вниманием с механизмами самовнимания, позволяя модели более эффективно захватывать контекстную информацию на нескольких слоях. В результате YOLOv11 демонстрирует повышенную точность, особенно при обнаружении небольших или скрытых объектов. Еще одним значительным улучшением является замена блока C2f на C3k2 в базовой архитектуре и головной части, пользовательской реализации CSP Bottleneck. В отличие от одной большой свертки YOLOv8, C3k2 использует две меньшие свертки, обеспечивая баланс между точностью, эффективностью и скоростью обработки [30].

Улучшенные конвейеры обучения и хорошо настроенные архитектурные решения способствуют превосходной скорости обработки YOLOv11, обеспечивая отличный баланс между производительностью и точностью. Примечательно, что модель YOLOv11-m достигла более высокого среднего mAP (средняя средняя точность) при использовании на 22% меньше параметров на наборе данных COCO [31]. Это гарантирует, что модель остается вычислительно эффективной, сохраняя при этом уровень точности.

Кроме того, универсальность YOLOv11 позволяет беспрепятственно развертывать его в различных средах, включая периферийные устройства, облачные платформы и системы, оснащенные графическими процессорами NVIDIA. Эта гибкость делает его подходящим для широкого спектра приложений, от обнаружения объектов и сегментации экземпляров до классификации изображений, оценки позы и обнаружения ориентированных ограничивающих рамок (OBB).

В целом, YOLOv11 — это мощный инструмент для решения задач компьютерного зрения в академической и промышленной сферах. Его инновационная архитектура позволяет решать разнообразные задачи в этой области, предлагая адаптируемые и высокопроизводительные решения для обнаружения объектов в реальном времени и связанных с этим приложений.

3.4. Показатели оценки

Основные показатели эффективности, используемые для оценки моделей машинного обучения, — это точность классификации и более чувствительные индикаторы, измеряющие успешность модели [ 32 ]. Точность измеряется  при сравнении точно предсказанных положительных ( TP ) и отрицательных ( TN ) образцов со всеми образцами ( TP  +  TN  +  FP  +  FN ). FP  (ложноположительный результат) относится к случаям, когда модель ошибочно классифицирует несуществующий объект как положительный. В отличие от этого,  FN  (ложноотрицательный результат) относится к случаям, когда модель не может обнаружить существующий объект.  TP  (истинноположительный результат) указывает на случаи, когда модель правильно идентифицирует существующий объект, а  TN  (истинноотрицательный результат) обозначает случаи, когда модель правильно отклоняет несуществующий объект. Уравнение (1) выражает это соотношение следующим образом:

Однако точность не всегда является надежным показателем, особенно при работе с несбалансированными наборами данных. В результате дополнительные метрики позволяют более тщательно оценить производительность модели. Точность — это метрика, которая показывает долю предсказанных положительных образцов, которые были правильно классифицированы. Уравнение (2) определяет точность как:

Еще один важный показатель, полнота, показывает, насколько хорошо модель правильно идентифицирует истинно положительные образцы. Полнота рассчитывается по уравнению (3):

Показатель  F1, измеряющий баланс между точностью и полнотой, представляет собой гармоническое среднее этих двух метрик и особенно важен в несбалансированных наборах данных. Показатель  F1 определяется уравнением (4):

Производительность модели оценивается для более сложных задач, таких как обнаружение объектов, с использованием средней точности (AP), которая рассчитывается как площадь под кривой точности-полноты (AUC). AP выражается уравнением (5):

Для оценки производительности модели при определенном пороге IoU (Intersection over Union) используется mAP@50, который усредняет значения AP, рассчитанные при пороге IoU 0,50. Эта метрика является широко используемым методом оценки точности модели и определяется уравнением (6). AP50 — это среднее значение точности, рассчитанное при пороге IoU 0,50 (Intersection over Union) для каждого класса, а  N  представляет количество классов.

Для оценки производительности модели при различных пороговых значениях IoU (Intersection over Union) используется метрика mAP@50-95. Эта метрика вычисляет среднее значение AP, рассчитанное при пороговых значениях IoU от 0,50 до 0,95 (с шагом 0,05). mAP@50-95 представлена ​​уравнением ( 7 ):

Хотя точность, прецизионность, полнота и  F1-мера являются критически важными показателями для оценки производительности моделей машинного обучения, более продвинутые метрики, такие как mAP, обеспечивают более всестороннюю оценку, особенно для моделей обнаружения объектов [33, 34].

4. Результаты эксперимента

В данном исследовании после проведения аугментации данных на наборе данных BCCD, обнаружение объектов осуществлялось с использованием моделей YOLOv10 и YOLOv11. Модели обучались на графическом процессоре Tesla T4 с драйвером NVIDIA версии 535.104.05 и CUDA 12.2. Для YOLOv10 использовались веса  𝑛, 𝑠, 𝑥, 𝑙, 𝑚, 𝑏, а  для YOLOv11 — только  𝑛, 𝑠, 𝑥, 𝑙, 𝑚.

Эти веса соответствуют следующим значениям:  n  (нано),  s  (маленький),  x  (очень большой),  l  (большой),  m  (средний) и  b  (сбалансированный). Различные веса (m, n, x, s, l, b), используемые в моделях YOLOv10 и YOLOv11, выбраны для обеспечения баланса между вычислительной эффективностью и точностью модели. Эти варианты демонстрируют адаптивность модели, предлагая решения, адаптированные к различным потребностям приложений [29].

Для проверки модели использовался метод отложенной валидации, при котором набор данных был разделен на обучающую и тестовую выборки в соотношении 80/20. Обучающая выборка использовалась для оптимизации модели и настройки гиперпараметров, а тестовая выборка была предназначена исключительно для оценки конечной производительности обученной модели. Такой подход обеспечил точную оценку обобщающей способности модели на ранее не встречавшиеся данные.

В процессе оптимизации модели автоматически определялись наиболее подходящие параметры оптимизации. Использовался оптимизатор AdamW со скоростью обучения lr = 0,001429 и значением момента momentum = 0,9. AdamW был выбран из-за его доказанных преимуществ в процессе обучения, включая его эффективность на разреженных градиентах и ​​сильные возможности регуляризации, что подтверждается предыдущими исследованиями [35, 36, 37].

Результаты тренировочных запусков представлены в  таблицах 2  и  3 , где показана производительность моделей YOLOv10 и YOLOv11. YOLOv10-l превзошла другие версии по показателю mAP50 (0,927), в то время как YOLOv10-m достигла высокой точности 0,874. В случае YOLOv11, YOLOv11-l достигла одного из самых высоких значений mAP50 (0,938) и показала хорошие результаты по показателю mAP50-95 (0,663) по сравнению с такими моделями, как DWS-YOLO (mAP50: 0,938) и YOLO-FMS (mAP50: 0,925).

Кроме того, YOLOv11-l превзошла другие модели по точности (0,873), продемонстрировав свою способность обеспечивать более точные положительные прогнозы за счет минимизации ложных срабатываний. В целом, модели YOLOv10 и YOLOv11 показали результаты на уровне или даже выше, чем лучшие модели из литературы, подтверждая свою высокую общую эффективность. YOLOv11 показала лучшие результаты, чем YOLOv10, по показателю mAP.

Усовершенствованная архитектура YOLOv11 способствовала повышению точности обнаружения, с особенно заметным улучшением в обнаружении и классификации клеток крови. В обеих моделях YOLOv10 и YOLOv11 вес l показал наилучшие результаты по показателю mAP50. Мы сравнили лучшие веса моделей YOLOv10-l и YOLOv11-l, используя радарную диаграмму, иллюстрирующую их показатели эффективности на классах набора данных BCCD — лейкоциты, эритроциты, тромбоциты — и mAP@0.5, как показано на  рисунке 3. Это сравнение подчеркивает эффективность новой версии YOLO в задачах анализа медицинских изображений, особенно в обнаружении микроскопических клеток крови.

Рисунок 3.  Радарная диаграмма, сравнивающая показатели эффективности (лейкоциты, эритроциты, тромбоциты, mAP@0,5) для моделей YOLO: YOLOv10-l и YOLOv11-l.

Таблица 2.  Результаты производительности YOLOv10.

 

Таблица 3.  Результаты производительности YOLOv11.

На рисунке 4  показаны результаты обнаружения веса YOLOv11-l. На  рисунке 5 также представлена ​​матрица ошибок , дающая подробный обзор эффективности классификации модели для различных типов клеток крови и фонового класса. Каждая ячейка матрицы указывает долю предсказаний, попадающих в каждую категорию, нормализованную с учетом распределения классов. Матрица показывает, что модель YOLOv11-l достигла высокой точности в классификации лейкоцитов, получив идеальный результат 1,00, что демонстрирует ее исключительную способность правильно идентифицировать этот тип клеток. Тромбоциты и эритроциты также были классифицированы с высокой точностью, получив результат 0,96.

Рисунок 4.  Демонстрация обнаружения клеток крови с помощью YOLOv11-l.

Рисунок 5.  Матрица ошибок для YOLOv11-l.

Рисунки 6  и  7  в совокупности демонстрируют впечатляющие результаты модели YOLOv11-l в классификации типов клеток крови и прогресс ее обучения на протяжении нескольких эпох. 

Рисунок 6  иллюстрирует сильные классификационные возможности модели, с ключевыми результатами, включая надежную и стабильную полноту и высокую точность. Зеленая линия соответствует лейкоцитам, оранжевая линия — эритроцитам, а синяя линия — тромбоцитам.

Толстая темно-синяя линия представляет среднюю производительность по всем классам. В целом, модель показала надежную работу, особенно при обнаружении лейкоцитов.  Рисунок 7  представляет метрики обучения и валидации для модели YOLOv11-l на протяжении нескольких эпох. Как потери при обучении, так и при валидации последовательно снижались, отражая эффективное обучение и обобщение.

Показатели точности, полноты и mAP быстро улучшались в течение начальных эпох и стабилизировались на высоких значениях, что указывает на надежное обнаружение и классификацию клеток крови. Эти результаты подтверждают надежность и эффективность модели в автоматизации обнаружения и классификации клеток крови, подчеркивая ее потенциал для клинического применения.

Рисунок 6.  Кривые производительности YOLOv11-l при обнаружении и классификации клеток крови. ( a ) Полнота против достоверности, ( b ) Точность против достоверности, ( c ) Точность против полноты, ( d ) F1-мера против достоверности.

Рисунок 7.  Результаты модели YOLOv11-l.

В нашем исследовании мы развили эти достижения, используя новейшую архитектуру YOLOv11 с оптимизированными весами. Как показано в  таблице 1, наша модель YOLOv11-l достигла показателя mAP 93,8%, что соответствует одному из самых высоких показателей, когда-либо зарегистрированных. Она продемонстрировала исключительную точность в обнаружении лейкоцитов (99,0%) и тромбоцитов (91,8%). По сравнению с предыдущими моделями, она обеспечила улучшенные показатели обнаружения и сохранила высокую точность для всех типов клеток.

В этом исследовании также изучалось, как эти модели могут способствовать процессам клинической диагностики, обеспечивая более быстрые и точные результаты, чем традиционные методы. Кроме того, наше исследование было направлено на то, чтобы подчеркнуть потенциал современных моделей автоматического обнаружения на основе глубокого обучения в биомедицинской области, открывая перспективные пути для будущих разработок в области автоматизированной медицинской визуализации. Помимо этого, результаты данного исследования могут быть применены к другим биомедицинским наборам данных, потенциально улучшая диагностику и лечение более широкого спектра заболеваний.

5. Обсуждение

Результаты, представленные в этом исследовании, демонстрируют эффективность архитектур YOLOv10 и YOLOv11 в автоматическом обнаружении и классификации клеток крови. 93,8% успешность модели YOLOv11-l является значительным достижением в правильной идентификации клеток крови.

Это говорит о том, что усовершенствования YOLOv11, такие как улучшенное извлечение признаков и оптимизированные механизмы без привязки к якорям, особенно эффективны для задач медицинской визуализации, требующих высокой точности и надежности.

Матрица ошибок дополнительно иллюстрирует, что модель превосходно справляется с минимизацией ошибок классификации. Однако некоторые области все еще требуют доработки, особенно в различении близкородственных типов клеток, таких как эритроциты и тромбоциты. Показатели производительности, включая mAP и F1-меры, демонстрируют, что YOLOv11-l может эффективно обрабатывать вариации морфологии клеток, что имеет решающее значение для надежных клинических приложений.

Сокращение потерь при обучении и валидации подчеркивает эффективность процесса обучения, обеспечиваемую передовыми методами оптимизации и тщательной настройкой гиперпараметров. Однако некоторые ограничения остаются. Несмотря на высокую общую точность модели, определенные показатели ошибочной классификации указывают на то, что дополнительные стратегии расширения данных или ансамблевые подходы могли бы еще больше повысить производительность.

Кроме того, хотя использование набора данных BCCD является полезным, оно может ограничить обобщаемость модели на другие наборы данных клеток крови с различными методами окрашивания или вариациями изображений. Наше исследование вносит вклад в автоматизированный гематологический анализ, предлагая надежный метод классификации клеток крови, который может способствовать более быстрой и точной диагностике.

Тем не менее, будущие исследования должны рассмотреть возможность расширения набора данных и включения более разнообразных типов клеток для обеспечения устойчивости модели в более широком диапазоне клинических сценариев. Кроме того, будущие исследования могли бы сосредоточиться на интеграции методов трансферного обучения в аналогичные наборы данных для оптимизации производительности модели.

Другой подход мог бы включать использование гибридных моделей, которые сочетают YOLO с другими передовыми архитектурами, такими как трансформеры, для повышения показателей успешности. Кроме того, методы объяснимого искусственного интеллекта (XAI) могли бы обеспечить большую прозрачность в процессах принятия решений моделью, повышая доверие врачей к решениям на основе ИИ для обнаружения и классификации клеток крови.

6. Выводы

В данном исследовании изучались недавно разработанные архитектуры YOLOv10 и YOLOv11 для обнаружения и классификации клеток крови. В результате экспериментов, проведенных на наборе данных BCCD, применения методов аугментации данных и тестирования всех весов, было установлено, что YOLOv11 демонстрирует высокий показатель успешности — 93,8%. YOLOv11 показал лучшие результаты, особенно в обнаружении лейкоцитов и тромбоцитов, и достиг более высоких показателей точности, чем YOLOv10.

Кроме того, было определено, что YOLOv11 демонстрирует превосходные результаты по сравнению с другими исследованиями, представленными в литературе. Помимо того, что это первое исследование, проведенное с использованием YOLOv11, данное исследование продемонстрировало эффективность архитектур YOLO в процессе классификации клеток крови.

Результаты показывают, что возможна быстрая и точная автоматическая система, способная заменить ручные процессы, используемые в анализе медицинских изображений. Это может способствовать дальнейшему развитию моделей в будущих исследованиях путем применения к более крупным наборам данных и различным типам клеток. Кроме того, улучшенные алгоритмы также могут способствовать этому развитию.

Литература

  1. Vardiman, J.W.; Harris, N.L.; Brunning, R.D. The World Health Organization (WHO) classification of the myeloid neoplasms. Blood J. Am. Soc. Hematol. 2002100, 2292–2302. [Google Scholar] [CrossRef] [PubMed]
  2. Jabbour, E.; Kantarjian, H. Chronic myeloid leukemia: 2018 update on diagnosis, therapy and monitoring. Am. J. Hematol. 201893, 442–459. [Google Scholar] [CrossRef]
  3. Tian, Z.; Wei, Y.; Yu, Y.; Zhou, F.; Huang, Z.L. Blood cell analysis: From traditional methods to super-resolution microscopy. Photonics 20229, 261. [Google Scholar] [CrossRef]
  4. Hosseini, A.; Eshraghi, M.A.; Taami, T.; Sadeghsalehi, H.; Hoseinzadeh, Z.; Ghaderzadeh, M.; Rafiee, M. A mobile application based on efficient lightweight CNN model for classification of B-ALL cancer from non-cancerous cells: A design and implementation study. Inform. Med. Unlocked 202339, 101244. [Google Scholar] [CrossRef]
  5. Ghaderzadeh, M.; Aria, M.; Hosseini, A.; Asadi, F.; Bashash, D.; Abolghasemi, H. A fast and efficient CNN model for B-ALL diagnosis and its subtypes classification using peripheral blood smear images. Int. J. Intell. Syst. 202237, 5113–5133. [Google Scholar] [CrossRef]
  6. Das, P.K.; Diya, V.; Meher, S.; Panda, R.; Abraham, A. A systematic review on recent advancements in deep and machine learning based detection and classification of acute lymphoblastic leukemia. IEEE Access 202210, 81741–81763. [Google Scholar] [CrossRef]
  7. Shenggan. BCCD: Blood Cell Dataset. 2019. Available online: https://github.com/Shenggan/BCCD_Dataset (accessed on 13 December 2024).
  8. Patil, A.; Patil, M.; Birajdar, G. White blood cells image classification using deep learning with canonical correlation analysis. Irbm 202142, 378–389. [Google Scholar] [CrossRef]
  9. Hegde, R.B.; Prasad, K.; Hebbar, H.; Singh, B.M.K. Comparison of traditional image processing and deep learning approaches for classification of white blood cells in peripheral blood smear images. Biocybern. Biomed. Eng. 201939, 382–392. [Google Scholar] [CrossRef]
  10. Alzubaidi, L.; Fadhel, M.; Al-Shamma, O.; Zhang, J.; Duan, Y. Deep learning models for classification of red blood cells in microscopy images to aid in sickle cell anemia diagnosis. Electronics 20209, 427. [Google Scholar] [CrossRef]
  11. Al-Dulaimi, K.; Makki, T. Blood cell microscopic image classification in computer aided diagnosis using machine learning: A review. Iraqi J. Comput. Sci. Math. 20234, 43–55. [Google Scholar] [CrossRef]
  12. Jiang, Z.; Liu, X.; Yan, Z.; Gu, W.; Jiang, J. Improved detection performance in blood cell count by an attention-guided deep learning method. OSA Contin. 20214, 323. [Google Scholar] [CrossRef]
  13. Rajaraman, S.; Jaeger, S.; Antani, S. Performance evaluation of deep neural ensembles toward malaria parasite detection in thin-blood smear images. Peerj 20197, e6977. [Google Scholar] [CrossRef] [PubMed]
  14. Bukhari, M.; Yasmin, S.; Sammad, S.; El-Latif, A. A deep learning framework for leukemia cancer detection in microscopic blood samples using squeeze and excitation learning. Math. Probl. Eng. 20222022, 2801227. [Google Scholar] [CrossRef]
  15. Kouzehkanan, Z.; Saghari, S.; Tavakoli, S.; Rostami, P.; Abaszadeh, M.; Mirzadeh, F.; Satlsar, E.; Gheidishahran, M.; Gorgi, F.; Mohammadi, S.; et al. A large dataset of white blood cells containing cell locations and types, along with segmented nuclei and cytoplasm. Sci. Rep. 202212, 1123. [Google Scholar] [CrossRef]
  16. Lee, S.; Chen, P.; Lin, J. Complete blood cell detection and counting based on deep neural networks. Appl. Sci. 202212, 8140. [Google Scholar] [CrossRef]
  17. Alam, M.M.; Islam, M.T. Machine learning approach of automatic identification and counting of blood cells. Healthc. Technol. Lett. 20196, 103–108. [Google Scholar] [CrossRef]
  18. Mustaqim, T.; Fatichah, C.; Suciati, N. Combination of cross stage partial network and ghostnet with spatial pyramid pooling on yolov4 for detection of acute lymphoblastic leukemia subtypes in multi-cell blood microscopic image. Sci. J. Inform. 20229, 139–148. [Google Scholar] [CrossRef]
  19. Nugraha, S. White blood cell detection using yolov8 integration with detr to improve accuracy. Sinkron 20238, 1908–1916. [Google Scholar] [CrossRef]
  20. Rahimunnisa, K.; Aparna, V.; Harrini, R.; Kamalini, K. Quantification of blood cells and blood disease detection using image processing. In Recent Trends in Intensive Computing; IOS Press: Amsterdam, The Netherlands, 2021. [Google Scholar] [CrossRef]
  21. Yücel, Z.; Çetintaş, D. YOLOV9 İLE KAN HÜCRELERİNİN OTOMATİK TANIMLANMASI: OPTİMİZASYON VE ÖĞRENME ORANI ETKİLERİ. Adıyaman Üniversitesi Mühendislik Bilim. Derg. 202411, 125–135. [Google Scholar] [CrossRef]
  22. Xu, F.; Li, X.; Yang, H.; Wang, Y.; Xiang, W. TE-YOLOF: Tiny and efficient YOLOF for blood cell detection. Biomed. Signal Process. Control 202273, 103416. [Google Scholar] [CrossRef]
  23. Liu, C.; Li, D.; Huang, P. ISE-YOLO: Improved squeeze-and-excitation attention module based YOLO for blood cells detection. In Proceedings of the 2021 IEEE International Conference on Big Data (Big Data), Orlando, FL, USA, 15–18 December 2021; IEEE: New York, NY, USA, 2021; pp. 3911–3916. [Google Scholar]
  24. Wang, Y.; Pan, L.; Shu, X. YOLO-FMS: A lightweight and efficient model for medical microscopic smear detection. IEEE Access 202412, 125253–125265. [Google Scholar] [CrossRef]
  25. Mao, Y.; Zhang, H.; Wu, W.; Gao, X.; Lin, Z.; Lin, J. DWS-YOLO: A Lightweight Detector for Blood Cell Detection. Appl. Artif. Intell. 202438, 2318673. [Google Scholar] [CrossRef]
  26. Shakarami, A.; Menhaj, M.B.; Mahdavi-Hormat, A.; Tarrah, H. A fast and yet efficient YOLOv3 for blood cell detection. Biomed. Signal Process. Control 202166, 102495. [Google Scholar] [CrossRef]
  27. Sönmez, A.F.; Çakar, S.; Cerezci, F.; Kotan, M.; Delibaşoğlu, İ.; Çit, G. Deep Learning-Based Classification of Dermoscopic Images for Skin Lesions. Sak. Univ. J. Comput. Inf. Sci. 20236, 114–122. [Google Scholar] [CrossRef]
  28. Potrimba, P. What is YOLOv10? An Architecture Deep Dive. Roboflow Blog. 2024. Available online: https://blog.roboflow.com/what-is-yolov10/ (accessed on 13 December 2024).
  29. Wang, A.; Chen, H.; Liu, L.; Chen, K.; Lin, Z.; Han, J.; Ding, G. Yolov10: Real-time end-to-end object detection. arXiv 2024, arXiv:2405.14458. [Google Scholar]
  30. Jegham, N.; Koh, C.Y.; Abdelatti, M.; Hendawi, A. Evaluating the Evolution of YOLO (You Only Look Once) Models: A Comprehensive Benchmark Study of YOLO11 and Its Predecessors. arXiv 2024, arXiv:2411.00201. [Google Scholar]
  31. Khanam, R.; Hussain, M. YOLOv11: An Overview of the Key Architectural Enhancements. arXiv 2024, arXiv:2410.17725. [Google Scholar] [CrossRef]
  32. Jeon, Y.D.; Kang, M.J.; Kuh, S.U.; Cha, H.Y.; Kim, M.S.; You, J.Y.; Kim, H.J.; Shin, S.H.; Chung, Y.G.; Yoon, D.K. Deep Learning Model Based on You Only Look Once Algorithm for Detection and Visualization of Fracture Areas in Three-Dimensional Skeletal Images. Diagnostics 202314, 11. [Google Scholar] [CrossRef]
  33. Chou, C.K.; Karmakar, R.; Tsao, Y.M.; Jie, L.W.; Mukundan, A.; Huang, C.W.; Chen, T.H.; Ko, C.Y.; Wang, H.C. Evaluation of Spectrum-Aided Visual Enhancer (SAVE) in Esophageal Cancer Detection Using YOLO Frameworks. Diagnostics 202414, 1129. [Google Scholar] [CrossRef]
  34. Sahafi, A.; Koulaouzidis, A.; Lalinia, M. Polypoid lesion segmentation using YOLO-V8 network in wireless video capsule endoscopy images. Diagnostics 202414, 474. [Google Scholar] [CrossRef]
  35. Zhang, D.; Lu, R.; Guo, Z.; Yang, Z.; Wang, S.; Hu, X. Algorithm for Locating Apical Meristematic Tissue of Weeds Based on YOLO Instance Segmentation. Agronomy 202414, 2121. [Google Scholar] [CrossRef]
  36. Li, C.; Zeng, Q.; Lu, L. Lightweight Barcode Positioning Algorithm Based on YOLO Model. IEEE Access 202412, 192341–192355. [Google Scholar] [CrossRef]
  37. Sun, W.; Liu, Z.; Wang, Q.; Zhu, B. Surface Defect Detection of Remanufactured Products by Using the Improved Yolov5. In Proceedings of the International Workshop on Autonomous Remanufacturing, Caserta, Italy, 18–19 October 2023; Springer: Cham, Switzerland, 2023; pp. 239–250. [Google Scholar]

Авторы: Halenur Sazak, Muhammed Kotan