Предлагаемая для рассмотрения в этой статье система классификации минералов в реальном времени разработана для интерактивной викторины, в которой пользователи определяют минералы, отвечая на вопросы, сгенерированные игрой. Игроки показывают минерал в камеру, а система распознает и оценивает их ответы, органично сочетая обучение и развлечение. Демонстрируя повседневное использование минералов, это приложение повышает осведомленность и пробуждает интерес к геологии и естественным наукам посредством увлекательного и интерактивного обучения.
Основная цель настоящего исследования заключалась в разработке системы классификации минералов в реальном времени, предназначенной для множественного обнаружения, которая интегрирует классические методы компьютерного зрения с передовыми алгоритмами глубокого обучения. Система использует три архитектуры сверточных нейронных сетей (CNN) — VGG-16, Xception и MobileNet V2 — предназначенные для идентификации нескольких минералов в одном кадре и вывода вероятностей для различных типов минералов, включая пирит, арагонит, кварц, обсидиан, гипс, азурит и гематит.
Среди них MobileNet V2 продемонстрировал исключительную производительность, достигнув наивысшей точности (98,98%) и наименьших потерь (0,0202), в то время как Xception и VGG-16 также показали конкурентоспособные результаты, преуспев в извлечении признаков и детальном анализе соответственно. Визуализация с использованием взвешенного по градиенту отображения активации классов (Class Activation Mapping) продемонстрировала способность моделей улавливать отличительные признаки минералов, повышая интерпретируемость.
Кроме того, подход с использованием ансамбля моделей достиг впечатляющей точности в 99,71%, эффективно используя взаимодополняющие сильные стороны отдельных моделей. Несмотря на высокую эффективность, ансамблевый метод создает вычислительные проблемы, особенно для приложений реального времени на устройствах с ограниченными ресурсами. Применение этой методологии в Mineral Quest, образовательной игре на основе Python, подчеркивает ее практический потенциал в геологическом образовании, горном деле и геологических исследованиях, предлагая увлекательный и точный инструмент для классификации минералов в реальном времени.
1. Введение
Машинное обучение (МО) становится все более неотъемлемой частью образования, способствуя повышению цифровой грамотности и улучшая понимание учащимися искусственного интеллекта (ИИ). Несмотря на почти три десятилетия развития, его полный педагогический потенциал остается неясным для многих педагогов [1]. Однако научное сообщество широко признает преобразующую роль интеллектуальных технологий в улучшении процессов преподавания и обучения [2, 3].
Фореро-Корба и др. [2] выявили 33 интеллектуальных метода, которые предлагают существенные преимущества для образования, включая раннее выявление проблем с успеваемостью, повышение профессионального развития учителей, поддержку учащихся с расстройствами аутистического спектра (РАС), прогнозирование и устранение рисков отсева из школы и улучшение качества образовательного контента.
Вдохновленная образовательными инструментами, которые обучают основным концепциям ИИ посредством интерактивных игр и викторин [4], в данной статье представлена система классификации минералов в реальном времени, интегрированная в увлекательную викторину. Система, работающая на основе МО, позволяет игрокам идентифицировать минералы с помощью интерфейса на основе камеры, который распознает и оценивает ответы в реальном времени.
Этот инновационный подход сочетает образование с развлечением, улучшая процесс обучения и повышая осведомленность о повседневном применении минералов, в конечном итоге пробуждая интерес к геологии и естественным наукам. Точная идентификация горных пород и минералов долгое время оставалась сложной задачей, традиционно основанной на анализе физических и химических свойств.
Эти методы изучают минеральные ассоциации и текстуры различных типов образцов, включая тонкие шлифы и порошки, чтобы выявить их определяющие характеристики [5]. К распространенным методам такого анализа относятся рентгеновская дифракция (XRD), рентгеновская флуоресценция (XRF), рамановская спектроскопия, сканирующая электронная микроскопия (SEM) и автоматизированные минералогические системы. Эти методы фокусируются на химическом составе и кристаллической структуре, часто игнорируя фундаментальные оптические свойства минералов.
Недавние разработки в области визуализации и искусственного интеллекта открывают новые возможности в идентификации минералов [6]. В частности, алгоритмы машинного обучения (ML-алгоритмы), особенно сверточные нейронные сети (CNN) и технология распознавания лиц, теперь могут использоваться для классификации минералов на основе одних только оптических характеристик. Сверточные нейронные сети преодолели многие ограничения более ранних методов распознавания лиц, такие как проблемы с освещением и позой, за счет автоматизации извлечения признаков и повышения устойчивости [4, 7, 8, 9, 10, 11].
В геологии алгоритмы машинного обучения быстро расширяются в рамках искусственного интеллекта, имея широкий спектр применений для идентификации и классификации горных пород и минералов. Ключевое преимущество приложений машинного обучения заключается в их способности решать сложные задачи, которые нельзя решить с помощью одного фиксированного решения [12].
Вместо того чтобы полагаться на фиксированные модели, алгоритмы машинного обучения решают эти задачи, обрабатывая большие наборы данных посредством процессов обучения, которые позволяют им получать «экспертизу» из опыта [13]. Одним из первых методов машинного обучения для обнаружения объектов были классификаторы каскада Хаара (HCC), представленные Виолой и Джонсом в 2001 году [14, 15], которые используют признаки Хаара для идентификации краев и паттернов, эффективно вычисляемых с помощью интегральных изображений.
Применяя AdaBoost, он объединяет слабые классификаторы для создания сильного классификатора, фокусируясь на сложных положительных и отрицательных образцах для минимизации ошибок. Известные своей простотой и эффективностью, они получили широкое распространение для обнаружения таких объектов, как лица и глаза на изображениях; Однако с появлением методов глубокого обучения на основе CNN, которые превосходят в извлечении и распознавании признаков, HCC считается менее универсальным и менее точным для сложных задач.
К заметным достижениям 2010-х годов, применившим алгоритмы глубокого обучения для идентификации и классификации минералов и горных пород, можно отнести работу Милнарчука и др. [16], которые использовали различные алгоритмы для классификации микроскопических изображений горных пород, а также работу Молладжана и др. [17], которые представили полуавтоматический алгоритм для идентификации пяти типов пор в карбонатных породах газового месторождения по изображениям тонких шлифов.
Алгоритм в этом исследовании включал четыре основных этапа: сегментацию изображения на основе цвета с использованием алгоритма кластеризации K-средних, извлечение шести геометрических параметров формы из каждой сегментированной области, классификацию с помощью k-ближайших соседей (kNN), радиальной базисной функции (RBF) и машины опорных векторов (SVM), а также объединение выходных данных классификатора с использованием метода нечеткого интеграла Сугено (FSI). Результаты экспериментов показали, что метод SVM с полиномиальным ядром обеспечивает наивысшую точность — 94,4%, а метод нечеткого слияния дополнительно повышает точность классификации до 9,4%, значительно улучшая результаты с точки зрения нефтегазовой геологии.
В целях совершенствования методов идентификации минералов Изади и др. [18] разработали интеллектуальную систему для сегментации и идентификации минералов в тонких шлифах в режиме реального времени и с высокой степенью надежности. Используя цветовые пространства RGB и HSI, а также текстурные характеристики, система работает по каскадному подходу, включающему две фазы: сегментацию и идентификацию. Эта методология включает искусственные нейронные сети для точной классификации минералов, достигнув общей точности 93,81% для 23 магматических минералов. Способность системы прогнозировать минеральный состав и вероятные типы целевых пород открывает значительные возможности для применения в петрографии и исследованиях Марса, проводимых НАСА.
Хоррам и др. [19] представили анализ алгоритма классификации типов и видов горных пород на основе машинного зрения, продемонстрировав его эффективность на образцах из известнякового рудника Новин в Иране. В исследовании была достигнута точность классификации приблизительно 80% для образцов известняка и 90% для образцов доломита, а также эффективные прогнозы химического состава с использованием многослойной перцептронной нейронной сети, что подчеркивает потенциал этой техники на различных этапах горнодобывающих проектов.
Более того, дальнейшие исследования Итано и др. [20] изучали использование kNN, SVM и многомерной логистической регрессии для повышения точности классификации минералов и геохимической дискриминации. Кроме того, Окада и др. [21] предложили автоматизированную систему идентификации минералов, которая интегрирует гиперспектральную съемку с глубоким обучением для идентификации типов минералов на этапах предварительной обработки.
Кроме того, Ву и др. [22] рассмотрели проблему идентификации минералов в геологическом анализе, процесс, традиционно зависящий от экспертных знаний и специализированного оборудования. Эти традиционные методы трудоемки и часто непрактичны для идентификации сопутствующих минералов в естественной среде.
Для преодоления этого ограничения исследователи предложили модель глубокого обучения, основанную на архитектуре трансформера и многоклассовой классификации изображений. Эта модель анализирует изображения минералов и выдает вероятности присутствия различных минералов в одном изображении.
Экспериментальные результаты на 36 распространенных минералах показали, что модель достигает средней точности 85,26%. Кроме того, визуализация карт активации классов показала, что модель эффективно определяет местоположение идентифицированных минералов, демонстрируя свой потенциал для более эффективного и точного геологического анализа.
Цзэн и др. [23] представили метод, сочетающий признаки фотоизображения с твердостью минералов, используя модель EfficientNet-b4 для извлечения признаков. Аналогично, Радулеску и др. [24] исследовали влияние интеграции глубокого обучения с решениями FinTech для повышения эффективности идентификации минералов и содействия устойчивой добыче природных ресурсов. Используя архитектуру EfficientDet и подход квантования после обучения, исследователи добились значительного улучшения эффективности и точности модели. Квантованная модель EfficientDet продемонстрировала превосходные результаты с точностью 0,97 и полнотой 0,89 по сравнению с моделью с плавающей запятой. Полученные результаты подчеркивают потенциал платформ FinTech в обеспечении принятия решений об инвестициях в горнодобывающую промышленность на основе данных и с учетом экологической ответственности.
Чжан и др. [25], признавая, что такие факторы, как твердость по шкале Мооса, цвет, масштаб и особенно интенсивность света, влияют на точность распознавания, разработали алгоритм выравнивания яркости. Объединив выравнивание гистограммы с алгоритмом Лапласа для предварительной обработки яркости образца и используя модель YOLOv5 для идентификации, их метод достиг точности 95,6% при идентификации 50 распространенных минералов, демонстрируя эффективность этого подхода глубокого обучения на основе выравнивания яркости.
Чен и др. [26] продемонстрировали полезность сверточных нейронных сетей (CNN) в классификации изображений горных пород, используя глубокие остаточные сети с трансферным обучением для достижения повышенной точности. Этот подход позволяет адаптировать предварительно обученные модели, такие как VGG16, обученные на больших наборах данных, таких как ImageNet, для специализированных геологических приложений.
Аналогично, Хе и др. [27] использовали модель Res-VGG-UNet для идентификации трещин и минералов в образцах горных пород, демонстрируя эффективность глубокого обучения в анализе геологических особенностей. Киличая [28] применил предварительно обученную модель VGG16 с трансферным обучением и расширением данных для классификации семи типов минералов, достигнув точности 83%, при этом решив проблемы визуального различения похожих минералов.
Многие подходы, описанные в предыдущих исследованиях, хотя и весьма эффективны в контролируемых условиях, не всегда подходят для приложений реального времени из-за их вычислительных требований и зависимости от обширных наборов данных. Такие методы, как сверточные нейронные сети (CNN) или модели на основе трансформеров, часто требуют значительной вычислительной мощности, что делает их менее практичными для динамических сценариев с высокой частотой кадров, таких как идентификация минералов на основе видео.
В этом контексте HCC, в отличие от моделей глубокого обучения, не требует значительных вычислительных ресурсов, может идеально подойти для встроенных систем или устройств с ограниченной вычислительной мощностью, представляя собой перспективное решение для приложений реального времени за счет эффективного обнаружения областей интереса (ROI) в видеокадрах. Эти ROI затем могут быть переданы предварительно обученным CNN для детальной классификации, используя их мощные возможности извлечения признаков и распознавания образов.
Такая интеграция уравновешивает скорость и эффективность HCC с точностью CNN, создавая масштабируемую, надежную структуру, подходящую для реальных динамических сред, где скорость и точность имеют решающее значение. Преодолевая ограничения систем, основанных исключительно на сверточных нейронных сетях (CNN), синергия HCC-CNN предлагает практичный конвейер для сложного обнаружения и классификации минералов в режиме реального времени.
Чтобы продемонстрировать практическую полезность этой методологии, она была интегрирована в Mineral Quest, интерактивную образовательную викторину, разработанную для распознавания и классификации минералов в режиме реального времени. Игра предоставляет пользователям увлекательную платформу для обучения и изучения передовых технологий идентификации минералов. Подробное описание функций и методологии игры будет приведено далее.
2. Материалы и методы
2.1. Методология
Разработанная методология, внедренная в Mineral Quest, состоит из четырех ключевых этапов: (а) этап подготовки данных и извлечения признаков; (б) реализация предварительно обученных моделей CNN (VGG16, Xception и MobileNet), замена их верхних слоев на пользовательские полносвязные слои для классификации 7 классов и обучение в два этапа: сначала замораживание предварительно обученных слоев и обучение пользовательской головной части, а затем тонкая настройка всей сети с небольшим темпом обучения; (в) этап интерпретируемости и оценки, который включает визуализацию с помощью взвешенного градиента активации классов (Grad-CAM), объясняющую предсказания модели, а также метрики, такие как точность, потери, прецизия, полнота, F1-мера и матрицы ошибок, оценивающие производительность; и (г) этап развертывания и тестирования, который реализует обученную систему в режиме реального времени, проверяя ее производительность в различных сценариях для обеспечения надежности и точности. На рисунке 1 показан полный рабочий процесс, включая предварительную обработку данных, тонкую настройку модели, интеграцию классификаторов каскада Хаара и классификацию минералов в реальном времени.

2.2. Первый этап — сбор данных, предварительная обработка и извлечение признаков.
2.2.1. Сбор и предварительная обработка данных
База данных минералов была разработана путем сбора физических образцов из коллекции «Георама», хранящейся в Минералогическом музее Школы горного и металлургического дела Национального технического университета Афин. Набор данных, использованный для обучения и тестирования, состоит из семи минералов, таких как арагонит, кристаллическая форма карбоната кальция, часто встречающаяся в морской среде; азурит, темно-синий медный минерал, обычно используемый в качестве медной руды и драгоценного камня; гематит, оксид железа, известный своим металлическим блеском и ролью основной железной руды; обсидиан, вулканическое стекло, образующееся из быстро остывающей лавы, обычно темного цвета; пирит, сульфидный минерал, часто называемый «золотом дураков» из-за своего металлического, золотистого вида; кварц, один из самых распространенных минералов, ценимый за свою твердость и используемый в различных отраслях промышленности, от ювелирного дела до электроники; и гипс, мягкий сульфатный минерал, широко используемый в строительстве для штукатурки и гипсокартона из-за своего белого или полупрозрачного вида.
Для получения высококачественных изображений минералов для классификации была создана контролируемая схема фотосъемки, в которой каждый минерал фотографировался на трех разных фонах (черном, зеленом и белом), чтобы улучшить способность модели к обобщению, выделяя визуальные особенности, такие как текстура, блеск и цвет. Использовалось правильное освещение для устранения теней и уменьшения бликов на отражающих поверхностях, таких как пирит или гематит, обеспечивая четкость характеристик минерала. Каждый минерал фотографировался с нескольких ракурсов, чтобы запечатлеть весь спектр его физических свойств, включая кристаллическую структуру, текстуру поверхности и видимые трещины или спайности. Веб-камера C270 HD была выбрана за ее функцию автоматической коррекции освещения, которая обеспечивает естественные и яркие цвета. Кроме того, в процессе фотосъемки поддерживались постоянные расстояние, разрешение и освещение, обеспечивая единообразие всех полученных изображений (рис. 2).

Рисунок 2. Примеры изображений минералов.
Постобработка включала изменение размера изображений до 128 × 128 пикселей, удаление фонового шума и преобразование их в формат RGB для анализа модели, чтобы обеспечить совместимость с предварительно обученными моделями [29]. Каждое изображение было преобразовано в числовой массив, облегчающий дальнейшую обработку в CNN, при этом каждой категории минералов присваивалась уникальная метка, позволяющая модели узнать, какие изображения принадлежат к какому классу минералов.
Массивы данных изображений были нормализованы с использованием масштабирования Min-Max в диапазоне от 0 до 1, что улучшило стабильность и производительность обучения модели. В дополнение к обучающему набору данных был проведен процесс аугментации данных для улучшения обобщающей способности и устойчивости модели. Этот процесс включал вращение суб-изображений на 90°, 180° и 270° для создания новых вариантов набора данных. Кроме того, исходные изображения были отражены по горизонтали и вертикали [30].
На заключительном этапе исходный набор данных был разделен с использованием 10-кратной перекрестной проверки, что обеспечило надежную оценку и соответствие стандартным методам машинного обучения. В частности, для обработки многоклассовой природы набора данных использовался метод StratifiedKFold, сохраняющий распределение классов по фолдам. Каждый фолд был разделен на обучающий набор (70%) и тестовый набор (30%).
Такой подход гарантирует, что модель обучается на большей части данных для изучения значимых закономерностей и взаимосвязей, в то время как меньший тестовый набор, который остается невидимым во время обучения, используется для объективной оценки способности модели к обобщению на новые данные [31, 32]. Кроме того, для оценки надежности результатов и сравнения производительности модели с базовыми или альтернативными методами были включены показатели статистической значимости, такие как p -значения, полученные с помощью критерия знаковых рангов Вилкоксона, что обеспечило надежность выводов [33].
2.2.2. Создание XML-файла
Для создания необходимого XML-файла для алгоритма каскада Хаара процесс начинается с подготовки набора данных, состоящего из положительных и отрицательных изображений. Положительные изображения содержат целевой объект, в нашем случае — минералы, а отрицательные изображения включают изображения, которые не содержат минералов. Следующий шаг включает обучение каскадного классификатора с использованием алгоритмов OpenCV [34].
Во время обучения алгоритм извлекает признаки Хаара из положительных изображений и использует модель AdaBoost для объединения слабых классификаторов, итеративно улучшая их способность различать положительные и отрицательные образцы [15]. Каскадная структура строится путем размещения классификаторов в последовательные этапы, причем каждый этап предназначен для быстрого отбрасывания неминеральных областей. После завершения обучения классификатор был сохранен в виде XML-файла, который впоследствии был использован для обнаружения минералов в викторине Mineral Quest.
2.3. Второй этап — Внедрение моделей и алгоритмов глубокого обучения
Сверточные нейронные сети (CNN), представляющие собой специализированный тип многослойных нейронных сетей, привели к значительным достижениям в компьютерном зрении, получив широкое внимание после успеха модели AlexNet в конкурсе классификации IMAGENET [35]. Этот успех стал важной вехой и сделал особенно популярной практику предварительного обучения CNN на больших наборах данных, таких как IMAGENET, и их тонкой настройки для конкретных задач, что позволяет эффективно обучать различные задачи компьютерного зрения [36].
Предварительно обученные модели, подобные тем, которые будут использованы в этой работе, теперь применяются в процессах, начиная от обнаружения структурных повреждений и заканчивая общей классификацией объектов, используя трансферное обучение для адаптации к небольшим наборам данных, при этом трансферное обучение набирает обороты по сравнению с традиционными методами обнаружения и классификации [30, 35].
Оценка трех предварительно обученных моделей CNN проводилась на платформе Kaggle, используя ее облачную среду с двумя графическими процессорами NVIDIA Tesla T4 (GPU T4 x2) для обеспечения параллельной обработки вычислительно сложных задач [37]. Python служил основным языком программирования для реализации моделей машинного обучения и проведения предварительной обработки данных, обеспечивая эффективное выполнение рабочих процессов глубокого обучения и бесшовную интеграцию экспериментального конвейера [38].
2.3.1. Модель VGG16
Первой моделью для наших экспериментов была предварительно обученная модель VGG16, предложенная в 2014 году Карен Симонян и Эндрю Зиссерманом [39]. VGG16 — это модель глубокого обучения на основе CNN, характеризующаяся глубокой структурой и небольшими сверточными фильтрами (3 × 3) во всех слоях [40].
Архитектура следует определенным правилам проектирования: слои сохраняют равное количество фильтров, когда размер карты признаков остается неизменным, и количество фильтров удваивается, когда размер карты признаков уменьшается вдвое, что обеспечивает вычислительную эффективность. В нашем случае мы модифицировали исходную модель VGG16, адаптировав ее к пользовательской задаче классификации, включающей 7 типов минералов [39, 41].
Исходные полносвязные слои были удалены и заменены пользовательской верхней моделью, состоящей из четырех полносвязных слоев и финального полносвязного слоя с 7 элементами. Сверточные слои VGG16 были заморожены для сохранения предварительно обученных признаков ImageNet, и обучались только новые верхние слои.
2.3.2. Модель Xception
Вторая модель включала Xception, представленную Google в 2017 году, — глубокую сверточную нейронную сеть, известную своим инновационным подходом к обучению признаков [42]. Она использует свертки с разделяемой глубиной, которые разлагают стандартные свертки на две части: свертки по глубине, выполняемые независимо на каждом канале входного сигнала, и точечные свертки (свертки 1 × 1), которые проецируют выходные каналы в новое канальное пространство. Эта архитектура значительно уменьшает количество параметров, сохраняя при этом высокую производительность [43].
Основываясь на этой архитектуре, доработанная модель Xception адаптирована для задачи классификации минералов по 7 классам. Оригинальные верхние полносвязные слои были удалены, и был добавлен пользовательский классификационный слой, включающий слой выравнивания, за которым следуют четыре полносвязных слоя. Предварительно обученные сверточные слои Xception, первоначально обученные на ImageNet, заморожены для сохранения их надежных возможностей извлечения признаков, в то время как обучение сосредоточено исключительно на пользовательских верхних слоях.
2.3.3. Модель MobileNet
Третья модель — это модель MobileNet, версия V2, которая характеризуется как облегченная модель на основе CNN, разработанная для мобильных и встроенных приложений компьютерного зрения. Она была разработана исследователями Google в рамках их усилий по созданию эффективных моделей глубокого обучения, оптимизированных для мобильных и периферийных устройств [44, 45]. Модель MobileNet использует послойные свертки, что значительно снижает вычислительную сложность и размер модели, сохраняя при этом высокую производительность в различных задачах классификации изображений и обнаружения объектов. Модульная конструкция MobileNet делает ее популярным выбором для трансферного обучения и настройки в различных областях [29, 30].
В нашем случае тонкая модель на основе архитектуры MobileNet была адаптирована для задачи классификации минералов с 7 классами, при этом полные связанные слои сверху были удалены и заменены пользовательской классификационной головкой [30]. Головка состоит из слоя Flatten, за которым следуют четыре полносвязных слоя. Она также использует слои Dropout с коэффициентом 0,4, которые включены после каждого полносвязного слоя, при этом последний полносвязный слой содержит 7 нейронов, а активация softmax включена для многоклассовой классификации.
2.3.4. Ансамбль штабелирования
Следуя методологии, описанной Део и др. [46], был применен подход ансамблевого стекирования для использования взаимодополняющих сильных сторон отдельных моделей — VGG16, Xception и MobileNet — путем объединения их уникальных представлений признаков с помощью метамодели, что привело к повышению точности и надежности [47, 48].
Для достижения ансамблевого стекирования процесс начинается с модификации и обучения трех базовых моделей. После обучения извлекаются промежуточные признаки или предсказания от каждой модели, отражающие их уникальные представления данных.
Затем эти признаки объединяются и используются в качестве входных данных для метамодели (модели логистической регрессии), которая учится взвешивать и интегрировать сильные стороны каждой базовой модели. Метамодель обучается на этих объединенных признаках, а ее предсказания служат конечным результатом, обеспечивая надежную и оптимизированную классификацию за счет использования взаимодополняющих возможностей базовых моделей.
2.4. Третий этап — Этап интерпретируемости и оценки
После обучения модели оценивались на тестовом наборе данных для оценки их производительности. Ключевые метрики включали точность, потери, прецизию, полноту и F1-меру. Кроме того, использовалась матрица ошибок для подробного анализа способности модели различать различные типы минералов, выделяя конкретные области, где модель показала хорошие результаты, и области, где она испытывала трудности. Для каждого класса минералов были рассчитаны точность, полнота и F1-мера, что помогло понять способность модели идентифицировать различные типы минералов [43].
2.5. Третий этап — Градиентно-взвешенное картирование активации классов
2.6. Четвертый этап — этап развертывания и тестирования с использованием Mineral Quest
Четвертый этап включал внедрение разработанной методологии в Mineral Quest — интерактивную образовательную игру на основе Python, предназначенную для обучения детей минералам с помощью машинного обучения и распознавания изображений. Игра использует веб-камеру, OpenCV для обработки видео в реальном времени, классификатор Хаара для обнаружения минералов и предварительно обученную модель глубокого обучения для классификации минералов на основе таких характеристик, как цвет, форма и блеск. Игра задает вопросы об использовании или характеристиках минералов, предлагая игрокам показать правильный минерал в камеру.
Результаты обнаружения, оценки достоверности и дополнительная информация о минералах накладываются на видеопоток, а обратная связь в реальном времени предоставляется с помощью экранных индикаторов и звуковых оповещений о правильных или неправильных ответах. Игра отслеживает очки игрока, время и прогресс, и завершается после заданного количества вопросов, отображая итоговый результат с возможностью повторного прохождения или выхода. Mineral Quest, состоящая из десяти раундов с ограничением по времени, предлагает увлекательное знакомство с геологией, демонстрируя при этом практическое применение машинного обучения для быстрой идентификации минералов. Основные особенности викторины «Минеральный квест» описаны в таблице 1 .
Таблица 1. Основные особенности интерактивной игры по поиску минералов «Минеральный квест».
| Основные характеристики | Описание |
|---|---|
| Настройка модели и данных | Предварительно обученная модель классифицирует типы минералов в обнаруженных регионах. |
| Классификатор каскада Хаара обнаруживает потенциальные минеральные области в видеокадрах. | |
| Файл labels.txt содержит названия классов минералов. | |
| Информация о полезных ископаемых и картографирование | Словари хранят описания и дополнительные сведения о каждом минерале. |
| Эти сведения позволяют получить представление об использовании или свойствах минералов. | |
| Игровая механика | Игра задает вопросы, связывающие минералы с реальными жизненными ситуациями (например, «Какой минерал используется в часах?»). |
| Отслеживает счет и прогресс пользователя. | |
| Обнаружение и классификация в реальном времени | Видеопоток с камеры анализируется в режиме реального времени для обнаружения минералов с помощью классификатора Хаара. |
| Обнаруженные регионы предварительно обрабатываются и классифицируются моделью глубокого обучения, отображая оценки достоверности. | |
| Если правильный минерал идентифицирован с вероятностью более 80%, отображается поздравительное сообщение, и оценка обновляется. |
3. Результаты
Результаты соответствующего анализа показали, что все три предварительно обученные модели CNN хорошо справились с задачей классификации минералов, при этом модель MobileNet достигла наивысшей общей точности 98,98% и ошибки 0,0202, что демонстрирует ее эффективность и точность. Модель Xception заняла второе место с точностью 98,69%, но имела более высокую ошибку 0,0455, что указывает на менее уверенные прогнозы. Модель VGG16 достигла точности 96,51% и наибольшей ошибки 0,1188 ( таблица 2 ).
Таблица 2. Показатели классификации по всем моделям.
| Model | Overall Accuracy | Overall Loss |
|---|---|---|
| VGG16 | 0.9651 | 0.1188 |
| XCeption | 0.9869 | 0.0455 |
| MobileNet | 0.9898 | 0.0202 |
На рисунке 3a показано уменьшение потерь как на обучающей, так и на валидационной выборках по мере увеличения количества эпох, что демонстрирует эффективное обучение во всех моделях. Модель MobileNet демонстрирует наиболее резкое начальное снижение потерь, что указывает на более быструю сходимость по сравнению с моделями Xception и VGG16. Среди моделей, модель MobileNet достигает наименьших потерь на валидационной выборке, что свидетельствует о лучшей обобщающей способности и стабильной производительности на неизвестных данных.
В отличие от этого, модель VGG16 имела более высокие потери на обучающей и валидационной выборках, что указывает на более медленную сходимость, в то время как модель Xception уравновешивает скорость сходимости и потери на валидационной выборке, превосходя модель VGG16, но немного уступая модели MobileNet. Небольшая разница между потерями на обучающей и валидационной выборках для всех моделей указывает на минимальное переобучение, при этом MobileNet демонстрирует наиболее эффективный профиль потерь в целом.
Аналогично, на рисунке 3b показано устойчивое улучшение точности как на обучающей, так и на валидационной выборках по мере увеличения количества эпох, что согласуется с наблюдаемым уменьшением потерь. Все модели к последним эпохам сходятся к высокой точности валидации, при этом MobileNet достигает наивысшей точности валидации, неизменно превосходя Xception и VGG16. Xception демонстрирует несколько меньшую точность по сравнению с MobileNet, но превосходит VGG16, что подчеркивает его превосходные возможности по извлечению признаков. VGG16 отстает от других моделей как по точности обучения, так и по точности валидации, что отражает более медленную сходимость и, возможно, большую сложность модели. Быстрый рост точности валидации MobileNet на начальных эпохах подчеркивает его эффективность и легковесную структуру.

Рисунок 3. ( а ) Кривые потерь и ( б ) точности для каждой эпохи.
Следующий этап анализа включал расчет показателей эффективности, таких как точность, полнота и F1-мера, и продемонстрировал эффективность всех трех моделей в классификации семи типов минералов ( таблица 3 ). Что касается лучшей модели, то лучшей оказалась модель MobileNet, достигшая наивысшей общей точности для большинства минералов со значениями, такими как 0,998 для арагонита и 0,997 для гипса, в сочетании с высокими показателями полноты и F1-меры (например, 0,996 для арагонита, обсидиана, кварца и гипса). За моделью MobileNet следовала модель Xception, которая показала конкурентоспособные результаты с высокой точностью для таких минералов, как гематит (0,999) и арагонит (0,996), хотя она показала несколько более низкую полноту для обсидиана (0,964) по сравнению с моделью MobileNet и другими минералами. Модель VGG16 демонстрирует несколько более низкую производительность, но неизменно показывает высокие показатели точности, полноты и F1-меры, например, 0,997 для гематита и 0,992 для пирита.
Таблица 3. Показатели эффективности, точность, полнота и F1-мера для всех моделей, средние значения и стандартное отклонение.
| Models | Minerals | Precision | Recall | F1-Score |
|---|---|---|---|---|
| VGG-16 | Aragonite | 0.919 ± 0.008 | 0.984 ± 0.010 | 0.950 ± 0.004 |
| Azurite | 0.965 ± 0.022 | 0.988 ± 0.016 | 0.977 ± 0.009 | |
| Hematite | 0.997 ± 0.017 | 0.980 ± 0.019 | 0.989 ± 0.009 | |
| Obsidian | 0.988 ± 0.010 | 0.942 ± 0.003 | 0.965 ± 0.003 | |
| Pyrite | 0.992 ± 0.003 | 0.924 ± 0.006 | 0.957 ± 0.004 | |
| Quartz | 0.971 ± 0.014 | 0.978 ± 0.009 | 0.975 ± 0.005 | |
| Gypsum | 0.959 ± 0.004 | 0.986 ± 0.006 | 0.972 ± 0.004 | |
| Xception | Aragonite | 0.996 ± 0.003 | 0.986 ± 0.004 | 0.991 ± 0.003 |
| Azurite | 0.988 ± 0.006 | 0.988 ± 0.005 | 0.988 ± 0.001 | |
| Hematite | 0.999 ± 0.001 | 0.973 ± 0.005 | 0.986 ± 0.004 | |
| Obsidian | 0.932 ± 0.005 | 0.998 ± 0.003 | 0.964 ± 0.003 | |
| Pyrite | 0.993 ± 0.005 | 0.986 ± 0.006 | 0.989 ± 0.001 | |
| Quartz | 0.993 ± 0.002 | 0.987 ± 0.006 | 0.990 ± 0.004 | |
| Gypsum | 0.990 ± 0.002 | 0.991 ± 0.005 | 0.991 ± 0.003 | |
| MobileNet | Aragonite | 0.998 ± 0.001 | 0.991 ± 0.004 | 0.996 ± 0.001 |
| Azurite | 0.994 ± 0.004 | 0.990 ± 0.004 | 0.992 ± 0.002 | |
| Hematite | 0.994 ± 0.002 | 0.994 ± 0.006 | 0.994 ± 0.003 | |
| Obsidian | 0.993 ± 0.005 | 0.998 ± 0.001 | 0.996 ± 0.003 | |
| Pyrite | 0.991 ± 0.005 | 0.994 ± 0.002 | 0.993 ± 0.002 | |
| Quartz | 0.991 ± 0.004 | 0.998 ± 0.003 | 0.996 ± 0.001 | |
| Gypsum | 0.997 ± 0.001 | 0.994 ± 0.002 | 0.996 ± 0.001 |
Статистическое сравнение точности моделей выявило значительные различия в производительности, определенные с помощью критерия знаковых рангов Вилкоксона. Для всех попарных сравнений — VGG16 против MobileNet, VGG16 против Xception и MobileNet против Xception — значение критерия Вилкоксона составило 0,0, а значения p — 0,0020, 0,0076 и 0,0114 соответственно. Эти значения p, все ниже порога 0,05, подтверждают, что наблюдаемые различия в точности являются статистически значимыми. Значение критерия Вилкоксона, равное 0,0, указывает на то, что во всех фолдах одна модель неизменно превосходила другую без исключений. В частности, MobileNet продемонстрировал более высокую точность по сравнению с VGG16, в то время как Xception также превзошел VGG16. Кроме того, MobileNet немного превзошел Xception по общей производительности. Эти результаты подчеркивают эффективность MobileNet и Xception для задачи классификации, при этом MobileNet показала наилучшие результаты в целом.
Что касается реализации Grad-CAM, то тепловые карты, представленные на рисунке 4 в верхнем ряду, отображают минерал арагонит, характеризующийся четкими кристаллическими образованиями. Модель VGG16 в основном фокусируется на центральной кристаллической структуре, но демонстрирует рассеянное внимание к окружающим областям, достигая вероятности 0,9415, что указывает на хорошую уверенность, но несколько меньшую точность по сравнению с другими моделями. Модель Xception концентрируется на наиболее заметных особенностях, особенно в центральной и верхней областях кристалла, с высокой вероятностью 0,9994, демонстрируя точное извлечение признаков и высокую уверенность в классификации. Модель MobileNet, подобно Xception, фокусируется на центральных структурных областях, но с несколько более широким распределением, достигая вероятности 0,9984, что отражает высокую уверенность со сбалансированным подходом между точностью и более широким контекстом.

Рисунок 4. Сравнительный анализ производительности трех моделей глубокого обучения с использованием визуализаций Grad-CAM для классификации гипса. В строке ( a ) показан арагонит, в строке ( b ) — гипс, в строке ( c ) — обсидиан, и в строке ( d ) — пирит.
Во втором ряду представлен гипс, известный как «пустынная роза», минерал, характеризующийся своей отличительной розеточной структурой и тонкими узорами. VGG16 выделяет основную розеточную структуру, но расширяет внимание на менее важные периферийные области, достигая высокой вероятности 0,9998, несмотря на менее точную фокусировку. Xception концентрируется почти исключительно на центральных спиральных узорах розетки, демонстрируя исключительную точность и достигая идеальной вероятности. MobileNet также эффективно фокусируется на розеточной структуре, хотя его внимание несколько менее сконцентрировано, чем у Xception, и он соответствует уровню достоверности Xception с идеальной вероятностью, обеспечивая сбалансированный подход между точностью и более широкой фокусировкой.
В третьем ряду представлен обсидиан, минерал, известный своими более темными участками и гладкой текстурой. Модель VGG16 фокусируется в основном на центре минерала, но также выделяет периферийные области, что приводит к меньшей точности, с вероятностью 0,9974, указывающей на высокую, но несколько сниженную уверенность по сравнению с другими моделями. Модель Xception точно определяет основные текстурные особенности и ключевые края минерала, достигая вероятности 0,9836, немного ниже ожидаемой, но все еще с высокой степенью уверенности. Модель MobileNet охватывает ключевые текстурные особенности с более широким вниманием, чем Xception, сохраняя высокую релевантность и достигая идеальной вероятности, демонстрируя свои сильные возможности классификации даже при менее сфокусированном внимании.
В нижнем ряду представлен пирит, золотистый кристаллический минерал с острыми и отражающими поверхностями. Модель VGG16 в основном фокусируется на центральных кристаллических областях, но также выделяет области за пределами основной структуры, что указывает на более общий подход. Несмотря на это, она достигает идеальной вероятности, демонстрируя высокую уверенность в своем прогнозе. Модель Xception демонстрирует четкую фокусировку на ключевых структурных особенностях, особенно на отражающих поверхностях и кристаллических краях, с идеальной вероятностью, демонстрируя точное внимание и исключительную уверенность. Кажется, что модель MobileNet балансирует внимание между мелкими деталями и более широкими областями, эффективно охватывая основные особенности минерала и достигая идеальной вероятности, что отражает ее высокую адаптивность и возможности классификации.
Сравнение всех моделей выявляет явные сильные стороны и компромиссы, которые делают каждую модель подходящей для различных приложений ( таблица 4 ). Что касается размера, модель VGG16 (90,77 МБ) умеренно велика из-за своей глубокой архитектуры и полносвязанных слоев, в то время как модель Xception (210,22 МБ) оказалась самой большой, что отражает ее сложную структуру с послойно разделяемыми свертками, которые улучшают извлечение признаков, но увеличивают размер модели. Модель MobileNet, размером всего 78,95 МБ, является самой маленькой, что делает ее идеальной для сред с ограниченным объемом памяти, таких как мобильные или встроенные системы.
Что касается времени обучения, Xception является самой медленной — 116,97 с, в основном из-за большого количества параметров и вычислительных требований, в то время как VGG16, несмотря на меньший вес, обучается немного быстрее (113,52 с). Модель MobileNet значительно превосходит обе, завершая обучение всего за 43,40 с, что свидетельствует о ее легковесной конструкции. При оценке количества обработанных изображений в секунду MobileNet снова выделяется, обрабатывая 44,19 изображений/с, что делает его оптимальным для приложений реального времени или с высокой пропускной способностью. Xception обрабатывает 16,83 изображений/с, достигая баланса между точностью и эффективностью, в то время как VGG16 отстает с 16,74 изображениями/с.
Что касается общего порядка вычислений в терминах большой О [ 50 ], сложность обучения масштабируется как O ( e · N · P ), где N — размер набора данных, e — количество эпох, а P — параметры модели, в то время как сложность вывода масштабируется как O ( N · P ). MobileNet (~4,2 млн параметров) имеет наименьшую вычислительную стоимость, идеально подходящую для условий с ограниченными ресурсами. Xception (~22,9 млн) использует послойно разделяемые свертки для повышения эффективности, превосходя VGG16 (~14,7 млн), несмотря на большее количество параметров.
Таблица 4. Сравнение всех моделей (размер, время обучения, количество обработанных изображений в секунду).
| Model | Size (MB) | Training Time | Images Processed/s |
|---|---|---|---|
| VGG16 | 90.77 | 113.52 s | 16.74 |
| XCeption | 210.22 | 116.97 s | 16.83 |
| MobileNet | 78.95 | 43.40 s | 44.19 |
Ансамблевой подход продемонстрировал исключительную производительность по всем метрикам, обеспечив стабильно высокие показатели точности, полноты и F1-меры для всех классов минералов, с общей точностью 99,71%. Объединив сильные стороны VGG16, Xception и MobileNet, ансамбль эффективно преодолел ограничения отдельных моделей, такие как более низкая точность VGG16 для арагонита и обсидиана или проблемы Xception с точностью обсидиана.
Примечательно, что ансамбль превзошел все базовые модели для сложных минералов, таких как обсидиан, достигнув сбалансированной точности (0,993) и полноты (0,999), при этом показав почти идеальные результаты для кварца (F1-мера: 0,998) и гипса (F1-мера: 0,996). Эта надежная и обобщенная производительность подчеркивает способность ансамбля использовать различные возможности извлечения признаков для повышения точности классификации.
Наиболее значительные улучшения наблюдались по сравнению с VGG16, где точность и полнота для сложных классов, таких как арагонит и обсидиан, повысились на 8,6% и 6,0% соответственно, в то время как меньшие, но значимые улучшения (0,1–0,8%) по сравнению с Xception и MobileNet для хорошо работающих классов, таких как кварц и гипс, подчеркивают способность ансамбля улучшать высокоэффективные модели ( таблица 5 ).
Таблица 5. Показатели производительности: точность, полнота и F1-мера для ансамбля стекинга.
| Models | Minerals | Precision | Recall | F1-Score |
|---|---|---|---|---|
| Stacking Ensemble | Aragonite | 0.998 ± 0.001 | 0.995 ± 0.002 | 0.996 ± 0.003 |
| Azurite | 0.999 ± 0.001 | 0.996 ± 0.003 | 0.997 ± 0.001 | |
| Hematite | 0.999 ± 0.001 | 0.995 ± 0.002 | 0.998 ± 0.002 | |
| Obsidian | 0.993 ± 0.003 | 0.999 ± 0.001 | 0.997 ± 0.001 | |
| Pyrite | 0.996 ± 0.002 | 0.999 ± 0.001 | 0.997 ± 0.001 | |
| Quartz | 0.996 ± 0.001 | 1.000 ± 0.000 | 0.998 ± 0.001 | |
| Gypsum | 0.997 ± 0.001 | 0.996 ± 0.002 | 0.996 ± 0.002 |
4. Обсуждение
Обзор последних научных публикаций подчеркивает преобразующее воздействие глубокого обучения, особенно сверточных нейронных сетей (CNN), на значительное повышение точности и эффективности классификации минералов, что позволяет создавать высокопроизводительные модели машинного зрения, адаптированные также для промышленного применения [51, 52, 53]. Киличкая [28] в своем исследовании подчеркивает, как модели на основе CNN предоставляют точную и эффективную альтернативу для полевых геологов и минералогов. Автор сообщает, что внедрение моделей на основе CNN устраняет недостатки традиционных методов, которые обычно включают ручное микроскопическое исследование — процесс, который является как трудоемким, так и подверженным человеческим ошибкам.
В этом исследовании мы представляем гибридный подход, который сочетает HCC для эффективного обнаружения областей интереса с предварительно обученными CNN для точной классификации минералов. Этот подход использует вычислительную эффективность HCC для быстрого определения потенциальных областей минералов в кадрах видео, значительно снижая нагрузку на обработку для CNN, которые затем выполняют детальную классификацию. HCC известны своими возможностями быстрого обнаружения, быстро определяя потенциальные ROI в изображении [54]. Практическая реализация этого метода поддерживает обработку в реальном времени, что делает его очень подходящим для полевых приложений, где быстрое принятие решений имеет решающее значение. Это особенно выгодно в горнодобывающих операциях, геологических исследованиях и образовательных инструментах, где немедленная обратная связь может существенно повлиять на результаты.
Для создания обучающей и валидационной базы данных мы также применили методы аугментации данных, включая случайные повороты, отражения и нормализацию. Эти методы повысили доступность модели к различным углам и условиям освещения, значительно улучшив ее способность классифицировать минералы в различных сценариях, что согласуется с результатами, полученными другими авторами [40, 53]. Хотя аугментация данных оказалась эффективной в улучшении обобщающей способности модели, ее успех по своей сути связан с наличием достаточного количества данных для точного приближения к реальному распределению данных.
Недавняя работа Салазара и др. [55] дает ценные сведения об этой взаимосвязи, представляя теоретическую кривую обучения для байесовского классификатора. Эта структура оценивает взаимосвязь между размером обучающей выборки и вероятностью избыточной ошибки, предлагая систематический подход к определению минимального размера набора данных, необходимого для достижения желаемого порога производительности. Хотя в данном исследовании такой теоретический анализ не включен, будущие исследования могли бы изучить его применение для дальнейшей оптимизации размера обучающего набора данных. Используя эту структуру, исследователи могли бы найти более эффективный баланс между расширением данных и производительностью модели, потенциально уменьшив зависимость от обширных эмпирических испытаний и упростив процесс разработки моделей классификации минералов.
Анализ показывает, что все три модели — VGG16, Xception и MobileNet — продемонстрировали высокую эффективность в классификации минералов, каждая из которых обладает уникальными преимуществами, подходящими для конкретных задач. MobileNet оказалась наиболее эффективной моделью, достигнув наивысшей общей точности (98,98%) и преуспев как в точности, так и в полноте для большинства типов минералов, при этом будучи легкой и быстрой, что делает ее идеальной для приложений с ограниченными ресурсами или приложений реального времени.
Xception сочетает высокую точность (98,69%) с умеренной вычислительной эффективностью, демонстрируя надежные возможности извлечения признаков и высокую производительность классификации. Хотя VGG16 немного отстала по точности (96,51%), ее способность извлекать детальные признаки и достигать минимальных потерь указывает на ее надежность для задач, в которых приоритет отдается точности. В целом, модель MobileNet оказалась лучшей по производительности с наивысшей точностью и наименьшими потерями, сочетая эффективность и точность, что делает ее идеальной для приложений реального времени, таких как викторина по классификации минералов.
Сравнительный анализ выявляет сильные стороны каждой модели: MobileNet превосходит конкурентов по эффективности и точности, что делает её идеальной для приложений с ограниченными ресурсами или работающих в режиме реального времени, в то время как Xception демонстрирует превосходные показатели извлечения признаков и классификации, лучше подходящие для задач, требующих детального анализа.
Однако развертывание более ресурсоемких моделей, таких как Xception, в средах с ограниченными вычислительными ресурсами или жесткими требованиями к работе в режиме реального времени представляет собой значительные проблемы. Для преодоления разрыва между производительностью и эффективностью можно использовать инновационные стратегии, такие как оптимизация модели — квантование, обрезка и дистилляция знаний — наряду с аппаратными ускорителями, такими как GPU или TPU.
Эти методы эффективно уменьшают размер модели и вычислительные требования, позволяя развертывать передовые модели, такие как Xception, в условиях ограниченных ресурсов без ущерба для их точности или возможностей извлечения признаков, тем самым расширяя их применимость к более широкому спектру реальных сценариев.
Визуализация Grad-CAM позволила получить ключевые данные о возможностях моделей по извлечению признаков и их соответствии характерным особенностям различных минералов.
Для арагонита, известного своими острыми кристаллическими образованиями, как MobileNet, так и Xception точно сфокусировались на центральной структуре, при этом MobileNet удалось найти баланс между захватом мелких деталей и более широких контекстных областей.
В случае гипса, характеризующегося замысловатыми розетовидными узорами, точная фокусировка Xception эффективно выделила уникальные структуры, в то время как MobileNet обеспечил сбалансированный подход, сделав обе модели высокоэффективными для захвата его характерных особенностей.
Для обсидиана с его гладкой текстурой и более темными тонами MobileNet преуспел, подчеркнув более широкие текстурные особенности, в то время как Xception обеспечил точность, нацелившись на края ядра. Аналогично, отражающая кристаллическая структура пирита была уверенно запечатлена обеими моделями, при этом MobileNet продемонстрировал повышенную надежность благодаря своей адаптивности к более широкому охвату признаков. Эти результаты подчеркивают способность MobileNet сочетать точность с контекстной осведомленностью, что делает его особенно эффективным в улавливании разнообразных и сложных физических характеристик минералов в реальных условиях.
Что касается ансамблевого подхода, он значительно повышает эффективность классификации за счет объединения взаимодополняющих сильных сторон базовых моделей, достигая выдающихся показателей точности, полноты и F1-меры для различных классов минералов, с общей точностью 99,71%, демонстрируя замечательную устойчивость.
Этот метод использует сильные стороны нескольких моделей, уменьшая количество ошибок классификации во время игры и обеспечивая надежные прогнозы за счет компенсации слабых сторон отдельных моделей. Однако его применение в сценариях реального времени сопряжено с проблемами, включая увеличение вычислительных затрат из-за запуска нескольких базовых моделей и метамодели, что может привести к увеличению времени вывода. Эта чувствительность к задержке может повлиять на производительность приложений реального времени, особенно на устройствах с ограниченными вычислительными ресурсами, таких как мобильные или встроенные системы.
Тестирование викторины Mineral Quest проводилось в Музее минералогии Geo-ORAMA, где учащиеся средних школ (в возрасте 9–18 лет) принимали участие в интерактивных мероприятиях, включая викторины и игры на классификацию минералов. Эти мероприятия проводились как инструктором-человеком, так и человекоподобным роботом Pepper.
Анализ анкет до и после посещения показал значительное увеличение готовности участников к участию в будущих образовательных программах, при этом ответы после посещения часто оценивались в 4 или 5 баллов по 5-балльной шкале. Кроме того, 67% участников согласились с тем, что мероприятия расширили их понимание минералов, а 77% сообщили, что их взаимодействие с Pepper было приятным и увлекательным. Демографический анализ показал, что девочки и участники младшего возраста (9–12 лет) продемонстрировали наибольшие положительные изменения как в вовлеченности, так и в готовности участвовать в будущих программах.
Эти результаты демонстрируют, как образовательные программы, основанные на передовых технологиях, такие как викторина Mineral Quest, могут эффективно улучшать результаты обучения. В более общем смысле, ИИ и машинное обучение совершают революцию в образовании, предоставляя инновационные решения для улучшения учебно-воспитательных процессов на всех уровнях.
Технологические разработки последних лет позволяют расширить возможности учителей и учащихся за счет автоматизации сложных задач, повышения цифровой грамотности и поддержки персонализированного обучения. Предложенная викторина Mineral Quest служит убедительным примером того, как ИИ/машинное обучение может преодолеть разрыв между абстрактными научными концептами и практическим обучением, способствуя более глубокому вовлечению и пониманию реальных приложений. Такие инициативы соответствуют текущим усилиям по продвижению цифровой трансформации в образовании, открывая путь к более инклюзивным и эффективным методам преподавания.
Разнообразие набора данных играет решающую роль в определении способности модели эффективно обобщать результаты в реальных условиях. Текущий набор данных включает семь различных минералов (пирит, арагонит, кварц, обсидиан, гипс, азурит и гематит), он ограничен по объему и может не в полной мере отражать широкий спектр типов и внешнего вида минералов, встречающихся в практических приложениях.
Вариации текстуры, блеска, цвета и кристаллической структуры среди неисследованных минералов могут создавать проблемы для точности классификации модели. Кроме того, такие факторы окружающей среды, как непостоянное освещение, выветренные поверхности и перекрывающиеся минеральные характеристики, вносят дополнительную сложность, которая не учитывается в данном исследовании.
Ложные срабатывания и ложные отрицания остаются проблемой, поскольку каскад Хаара может неправильно идентифицировать неминеральные объекты или не обнаруживать менее отчетливые минеральные характеристики. Система HCC может испытывать трудности с обнаружением тонких или менее четких минеральных особенностей, а также ошибочно идентифицировать неминеральные объекты, особенно в сложных условиях окружающей среды, таких как переменное освещение, перекрытия или шумный фон.
Эти проблемы могут подорвать общую надежность и точность системы в приложениях реального времени. Решение этих проблем может включать оптимизацию параметров HCC, внедрение передовых методов извлечения признаков и интеграцию дополнительных алгоритмов обнаружения для повышения устойчивости. Кроме того, усовершенствование этапов предварительной обработки и включение адаптивных механизмов обратной связи в рабочий процесс может помочь повысить точность обнаружения областей интереса (ROI), обеспечивая более последовательную и точную классификацию в более широком диапазоне реальных сценариев.
Несмотря на большую эффективность по сравнению с традиционными методами, вычислительные требования системы создают проблемы в условиях ограниченных ресурсов. Масштабируемость — еще одна проблема, особенно при расширении на более широкий спектр типов минералов или обработке больших наборов данных в режиме реального времени. Следует отметить, что база данных, использованная в этом исследовании, содержала минералы с различными визуальными характеристиками, что облегчало их различение; следовательно, модели не были протестированы на визуально похожих образцах, что может повлиять на их обобщаемость.
Для повышения достоверности модели и улучшения ее обобщающих возможностей в будущем следует уделить приоритетное внимание диверсификации набора данных, включив в него образцы минералов, которые сложнее различить. Это может включать в себя более широкий спектр типов минералов, текстур и блесков, а также образцы, полученные в различных условиях окружающей среды, таких как различное освещение и фон. Кроме того, расширение набора данных за счет включения крайних случаев — таких как минералы с перекрывающимися или неоднозначными физическими характеристиками — обеспечит более строгую оценку устойчивости модели. Такие улучшения обеспечат надежную и стабильную работу модели в реальных условиях.
Основываясь на этих усилиях по улучшению набора данных, в данном исследовании был использован подход ансамблевого стекирования для использования взаимодополняющих сильных сторон отдельных моделей CNN для классификации минералов. Ансамбли стекирования особенно эффективны, поскольку они объединяют выходные данные нескольких моделей для создания метамодели, используя разнообразные возможности отдельных классификаторов для повышения общей производительности.
Благодаря объединению прогнозов от нескольких CNN, ансамбль стекинга уменьшает переобучение и повышает надежность результатов классификации, демонстрируя свою пригодность для этой области. Хотя ансамбль стекинга показал значительные перспективы, недавние достижения в методах слияния, таких как альфа-интеграция, представляют альтернативные подходы к высокоуровневому слиянию. Альфа-интеграция, как описано Салазаром и др. [ 56]В данном подходе используются как линейные, так и нелинейные методы слияния, дополненные регуляризационным членом на основе графов.
Этот член минимизирует среднеквадратичную ошибку и уменьшает разброс объединенных статистических данных, улучшая разделение точек данных при различных гипотезах обнаружения. Было показано, что такой подход повышает эффективность классификации в различных приложениях за счет оптимизации процесса слияния. В будущих исследованиях можно было бы изучить применение альфа-интеграции к задачам классификации минералов. Ее способность точно настраивать слияние дополнительных признаков из нескольких моделей CNN может оказаться бесценной при решении таких проблем, как дисбаланс классов, перекрывающиеся физические характеристики и сложные минеральные текстуры.
Кроме того, в нашем случае ансамблевый подход можно оптимизировать для масштабируемости и работы в реальном времени, используя три предварительно обученные модели и сосредоточившись исключительно на оптимизации метамодели ансамбля, облегченной логистической регрессии, без необходимости дополнительных этапов обучения.
Такие методы, как обрезка модели и квантизация, также могут быть применены к предварительно обученным моделям для снижения вычислительных затрат без необходимости переобучения. Дальнейшего повышения эффективности можно добиться за счет совместного использования начальных слоев в разных моделях или внедрения динамического выбора модели для оптимизации обработки.
Однако, хотя эти оптимизации улучшают вычислительную эффективность и масштабируемость, они могут привести к компромиссам, таким как незначительное снижение точности. Для достижения баланса между сохранением производительности и соблюдением ресурсных ограничений приложений реального времени требуется тщательная настройка.
Прозрачность и интерпретируемость, обеспечиваемые визуализациями Grad-CAM, могут быть дополнительно использованы в будущих исследованиях путем интеграции этих тепловых карт в интерактивные образовательные инструменты, такие как викторина Mineral Quest.
Например, после правильного ответа игрока можно было бы отобразить тепловые карты Grad-CAM, демонстрирующие, как модель пришла к своему решению. Эта функция позволила бы игрокам визуализировать ключевые области изображения, повлиявшие на классификацию, предоставляя интуитивно понятный и увлекательный способ понять ход рассуждений модели. Такая интеграция превратила бы визуализации Grad-CAM в эффективный инструмент обучения, позволяющий студентам изучать сложные концепты, такие как извлечение признаков и классификация, в доступной форме.
Оптимизация моделей каскада Хаара и сверточных нейронных сетей с помощью передовых методов, не требующих значительных вычислительных ресурсов, а также тонкая настройка гиперпараметров могут дополнительно повысить производительность. Изучение гибридных моделей, интегрирующих дополнительные методы машинного обучения, такие как случайные леса или SVM, может улучшить точность классификации. Также важно разработать адаптивные методы для обработки изменяющихся условий окружающей среды и внедрить решения для периферийных вычислений для более эффективной обработки в реальном времени.
5. Выводы
В этом исследовании подчеркивается эффективность гибридного подхода, сочетающего HCC для эффективного обнаружения областей интереса с предварительно обученными CNN для точной и надежной классификации минералов.
Среди оцененных моделей MobileNet показала лучшие результаты, достигнув наивысшей точности (98,98%), наименьшей ошибки (0,0202) и превосходных показателей точности и полноты для всех классов минералов. Xception также показала хорошие результаты, продемонстрировав высокую точность (98,69%) и точное извлечение признаков, в то время как VGG16, несмотря на сравнительно более низкую точность (96,51%), оказалась надежной для задач, требующих детального анализа признаков.
Визуализация Grad-CAM позволила глубже понять возможности моделей по извлечению признаков, продемонстрировав их способность улавливать отличительные визуальные характеристики таких минералов, как арагонит, гипс, обсидиан и пирит, при этом MobileNet эффективно сбалансировала точность и контекстную направленность.
Подход с использованием ансамбля моделей дополнительно повысил эффективность классификации, достигнув впечатляющей точности в 99,71% за счет объединения взаимодополняющих сильных сторон базовых моделей. Этот метод продемонстрировал исключительную устойчивость, особенно для сложных классов минералов, с заметным улучшением точности и полноты по сравнению с отдельными моделями.
Однако вычислительные требования ансамбля стекирования, в сочетании с его влиянием на время вывода, создают проблемы для приложений реального времени, особенно на устройствах с ограниченными ресурсами. Несмотря на эти преимущества, ограничения, такие как недостаток разнообразия набора данных, постоянные ложные срабатывания и трудности в обнаружении визуально похожих минералов, указывают на области, требующие доработки. Факторы окружающей среды, такие как изменчивость освещения и перекрытия, еще больше затрудняют работу в реальных условиях.
В будущих исследованиях следует сосредоточиться на расширении и диверсификации обучающего набора данных, оптимизации архитектуры моделей и использовании передовых методов, таких как трансферное обучение и граничные вычисления, для повышения масштабируемости и эффективности.
Применение методологии в Mineral Quest, интерактивной образовательной игре на основе Python, демонстрирует практическое применение машинного обучения и распознавания изображений для классификации минералов в реальном времени, обеспечивая увлекательное и познавательное знакомство с геологией благодаря инновационной игровой механике. Благодаря решению этих проблем, предлагаемая система обладает значительным потенциалом для применения в горнодобывающей промышленности, геологических исследованиях и образовательных целях, где необходима точная классификация минералов в режиме реального времени.
Литература
- Zawacki-Richter, O.; Marín, V.I.; Bond, M.; Gouverneur, F. Systematic review of research on artificial intelligence applications in higher education—Where are the educators? Int. J. Educ. Technol. High. Educ. 2019, 16, 39.
- Forero-Corba, W.; Negre Bennasar, F. Machine Learning and Artificial Intelligence Techniques and Applications in Education: A Systematic Review. RIED-Ibero-Am. J. Distance Educ. 2024, 27, 209–253.
- Almeida Pereira Abar, C.A.; Dos Santos Dos Santos, J.M.; de Almeida, M.V. Computational Thinking in Elementary School in the Age of Artificial Intelligence: Where is the Teacher? Rev. Ensino Cienc. Matemática 2021, 23, 270–299.
- Horanai, H.; Maejima, Y.; Ding, L. An Education Tool at Supports Junior Learners in Studying Machine Learning. In Machine Learning and Artificial Intelligence; IOS Press: Amsterdam, The Netherlands, 2022; Volume 360, pp. 111–116.
- Liao, B.B. Analysis of Current Status and Development Trend of Rock and Mineral Identification. Resour. Inf. Eng. 2018, 33, 27–28.
- Long, T.; Zhou, Z.; Hancke, G.; Bai, Y.; Gao, Q. A Review of Artificial Intelligence Technologies in Mineral Identification: Classification and Visualization. J. Sens. Actuator Netw. 2022, 11, 50.
- Liu, X.; Jing, W.; Zhou, M.; Li, Y. Multi-Scale Feature Fusion for Coal-Rock Recognition Based on Completed Local Binary Pattern and Convolution Neural Network. Entropy 2019, 21, 622.
- Chen, H.; Hu, G.; Lei, Z.; Chen, Y.; Robertson, N.M.; Li, S.Z. Attention-Based Two-Stream Convolutional Networks for Face Spoofing Detection. IEEE Trans. Inf. Forensics Secur. 2020, 15, 578–593.
- Gong, Y.; Ding, S.; Zhang, C.H.; Su, H. Lightweight and Multi-Pose Face Recognition Method Based on Deep Learning. J. Comput. Appl. 2020, 40, 704–709.
- Zangeneh, E.; Rahmati, M.; Mohsenzadeh, Y. Low Resolution Face Recognition Using a Two-Branch Deep Convolutional Neural Network Architecture. Expert Syst. Appl. 2019, 139, 112854.
- Zheng, T.Y. Deep Learning for Age-Invariant Face Recognition. Master’s Thesis, Beijing University of Posts and Telecommunications, Beijing, China, 2019; p. 65.
- Shalev-Shwartz, S.; Ben-David, S. Understanding Machine Learning: From Theory to Algorithms; Cambridge University Press: Cambridge, UK, 2014.
- Petrelli, M.; Perugini, D. Solving Petrological Problems through Machine Learning: The Study Case of Tectonic Discrimination Using Geochemical and Isotopic Data. Contrib. Mineral. Petrol. 2016, 171, 15.
- Viola, P.; Jones, M. Fast and Robust Classification Using Asymmetric Adaboost and a Detector Cascade. In Proceedings of the Neural Information Processing Systems, Vancouver, BC, Canada, 3–8 December 2001; pp. 1311–1318.
- Viola, P.; Jones, M. Rapid Object Detection Using a Boosted Cascade of Simple Features. In Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Kauai, HI, USA, 8–14 December 2001; pp. 1063–6919.
- Mlynarczuk, M.; Gorszczyk, A.; Slipek, B. The Application of Pattern Recognition in the Automatic Classification of Microscopic Rock Images. Comput. Geosci. 2013, 60, 126–133.
- Mollajan, A.; Ghiasi-Freez, J.; Memarian, H. Improving Pore Type Identification from Thin Section Images Using an Integrated Fuzzy Fusion of Multiple Classifiers. J. Nat. Gas Sci. Eng. 2016, 31, 396–404.
- Izadi, H.; Sadri, J.; Bayati, M. An Intelligent System for Mineral Identification in Thin Sections Based on a Cascade Approach. Comput. Geosci. 2016, 96, 207–215.
- Khorram, F.; Morshedy, A.H.; Memarian, H.; Tokhmechi, B.; Zadeh, H.S. Lithological Classification and Chemical Component Estimation Based on the Visual Features of Crushed Rock Samples. Arab. J. Geosci. 2017, 10, 324.
- Itano, K.; Ueki, K.; Iizuka, T.; Kuwatani, T. Geochemical Discrimination of Monazite Source Rock Based on Machine Learning Techniques and Multinomial Logistic Regression Analysis. Geosciences 2020, 10, 63.
- Okada, N.; Maekawa, Y.; Owada, N.; Haga, K.; Shibayama, A.; Kawamura, Y. Automated identification of mineral types and grain size using hyperspectral imaging and deep learning for mineral processing. Minerals 2020, 10, 809.
- Wu, B.; Ji, X.; He, M.; Yang, M.; Zhang, Z.; Chen, Y.; Wang, Y.; Zheng, X. Mineral Identification Based on Multi-Label Image Classification. Minerals 2022, 12, 1338.
- Zeng, X.; Xiao, Y.; Ji, X.; Wang, G. Mineral identification based on deep learning that combines image and mohs hardness. Minerals 2021, 11, 506.
- Radulescu, M.; Dalal, S.; Lilhore, U.K.; Saimiya, S. Optimizing Mineral Identification for Sustainable Resource Extraction through Hybrid Deep Learning Enabled FinTech Model. Resour. Policy 2024, 89, 104692.
- Zhang, J.; Gao, Q.; Luo, H.; Long, T. Mineral Identification Based on Deep Learning Using Image Luminance Equalization. Appl. Sci. 2022, 12, 7055.
- Chen, W.; Su, L.; Chen, X.; Huang, Z. Rock Image Classification Using Deep Residual Neural Network with Transfer Learning. Front. Earth Sci. 2023, 10, 1079447.
- He, C.; Sadeghpour, H.; Shi, Y.; Mishra, B.; Roshankhah, S. Mapping Distribution of Fractures and Minerals in Rock Samples Using Res-VGG-UNet and Threshold Segmentation Methods. Comput. Geotech. 2024, 175, 106675.
- Kilickaya, O. Deep Learning-Based Mineral Classification Using Pre-Trained VGG16 Model with Data Augmentation: Challenges and Future Directions. Int. J. Latest Eng. Manag. Res. 2024, 9, 22–30.
- Fan, G.; Chen, F.; Chen, D.; Dong, Y. Recognizing Multiple Types of Rocks Quickly and Accurately Based on Lightweight CNNs Model. IEEE Access 2020, 8, 55269–55278.
- Pires de Lima, R.; Duarte, D.; Nicholson, C.; Slatt, R.; Marfurt, K.J. Petrographic Microfacies Classification with Deep Convolutional Neural Networks. Comput. Geosci. 2020, 142, 104481.
- Hacıefendioğlu, K.; Varol, N.; Toğan, V.; Bahadır, Ü.; Kartal, M.E. Automatic landslide detection and visualization by using deep ensemble learning method. Neural Comput. Appl. 2024, 36, 10761–10776.
- Ilia, I.; Tsangaratos, P.; Tzampoglou, P.; Chen, W.; Hong, H. Flash Flood Susceptibility Mapping Using Stacking Ensemble Machine Learning Models. Geocarto Int. 2022, 37, 15010–15036.
- Tsangaratos, P.; Ilia, I. Applying Machine Learning Algorithms in Landslide Susceptibility Assessments. In Handbook of Neural Computation; Samui, P., Sekhar, S.S., Balas, V.E., Eds.; Academic Press: Cambridge, MA, USA, 2017; pp. 433–457. ISBN 9780128113189.
- Bradski, G. The OpenCV Library. Dr. Dobb’s J. Softw. Tools 2000, 120, 122–125.
- Bukhsh, Z.A.; Jansen, N.; Saeed, A. Damage Detection Using In-Domain and Cross-Domain Transfer Learning. Neural Comput. Appl. 2021, 33, 16921–16936.
- Krizhevsky, A.; Sutskever, I.; Hinton, G.E. ImageNet Classification with Deep Convolutional Neural Networks. In Advances in Neural Information Processing Systems; MIT Press: Cambridge, MA, USA, 2012; pp. 1097–1105.
- Kaggle. Kaggle: Your Machine Learning and Data Science Community. Available online: https://www.kaggle.com (accessed on 6 December 2024).
- Python Software Foundation. Python Programming Language, Version 3.10. Available online: https://www.python.org (accessed on 6 December 2024).
- Simonyan, K.; Zisserman, A. Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv 2014, arXiv:1409.1556.
- Maitre, J.; Bouchard, K.; Bédard, L.P. Mineral Grains Recognition Using Computer Vision and Machine Learning. Comput. Geosci. 2019, 130, 84–93.
- Theerthagiri, P.; Ruby, A.U.; George Chellin Chandran, J. Prediction and Classification of Minerals Using Deep Residual Neural Network. Neural Comput. Appl. 2024, 36, 1539–1551.
- Chollet, F. Xception: Deep Learning with Depthwise Separable Convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, 21–26 July 2017; pp. 1251–1258.
- Xu, Z.; Ma, W.; Lin, P.; Hua, Y. Deep Learning of Rock Microscopic Images for Intelligent Lithology Identification: Neural Network Comparison and Selection. J. Rock Mech. Geotech. Eng. 2022, 14, 1140–1152.
- Howard, A.G.; Zhu, M.; Chen, B.; Kalenichenko, D.; Wang, W.; Weyand, T.; Andreetto, M.; Adam, H. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications. arXiv 2017, arXiv:1704.04861.
- Sandler, M.; Howard, A.; Zhu, M.; Zhmoginov, A.; Chen, L.C. MobileNetV2: Inverted Residuals and Linear Bottlenecks. In Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Salt Lake City, UT, USA, 18–23 June 2018; pp. 4510–4520.
- Deo, A.J.; Sahoo, A.; Behera, S.K.; Das, D.P. Vision-based size classification of iron ore pellets using ensembled convolutional neural network. Neural Comput. Appl. 2022, 34, 18629–18641.
- Wolpert, D.H. Stacked Generalization. Neural Netw. 1992, 5, 241–259.
- Farhadi, S.; Tatullo, S.; Boveiri Konari, M.; Afzal, P. Evaluating StackingC and Ensemble Models for Enhanced Lithological Classification in Geological Mapping. J. Geochem. Explor. 2024, 260, 107441.
- Selvaraju, R.R.; Cogswell, M.; Das, A.; Vedantam, R.; Parikh, D.; Batra, D. Grad-cam: Visual explanations from deep networks via gradient-based localization. Int. J. Comput. Vis. 2020, 128, 336–359.
- Srivastava, S.; Divekar, A.V.; Anilkumar, C.; Naik, I.; Kulkarni, V.; Pattabiraman, V. Comparative analysis of deep learning image detection algorithms. J. Big Data 2021, 8, 66.
- Lou, W.; Zhang, D.; Bayless, R.C. Review of Mineral Recognition and Its Future. Appl. Geochem. 2020, 122, 104727.
- Hao, H.; Gu, Q.; Hu, X. Research Advances and Prospective in Mineral Intelligent Identification Based on Machine Learning. Earth Sci. 2021, 46, 3091–3106.
- Liu, Y.; Wang, X.; Zhang, Z.; Deng, F. A Review of Deep Learning in Image Classification for Mineral Exploration. Miner. Eng. 2023, 204, 108433.
- Ghosh, G.; Swarnalatha, K.S. A Detail Analysis and Implementation of Haar Cascade Classifier. In Recent Advances in Artificial Intelligence and Data Engineering; Advances in Intelligent Systems and Computing; Shetty, D.P., Shetty, S., Eds.; Springer: Singapore, 2022; Volume 1386.
- Salazar, A.; Vergara, L.; Vidal, E. A Proxy Learning Curve for the Bayes Classifier. Pattern Recognit. 2023, 136, 109240.
- Salazar, A.; Safont, G.; Vergara, L.; Vidal, E. Graph Regularization Methods in Soft Detector Fusion. IEEE Access 2023, 11, 144747–144759.
Авторы: Paraskevas Tsangaratos, Paraskevas Tsangaratos, Ioanna Ilia, Nikolaos Spanoudakis, Georgios Karageorgiou, Maria Perraki



