Компьютерное зрение и глубокое обучение в управлении ростом сельскохозяйственных культур

04.04.2026

843

views

Сельское хозяйство является основополагающей отраслью для выживания человека, глубоко влияющей на экономические, экологические и социальные аспекты. В условиях глобальных вызовов, таких как быстрый рост населения, дефицит ресурсов и изменение климата, достижение технологических инноваций в сельском хозяйстве и развитие умного земледелия становятся всё более важными.

В последние годы глубокое обучение и компьютерное зрение быстро развиваются. Ключевые области компьютерного зрения — такие как обработка изображений на основе глубокого обучения, обнаружение объектов и мультимодальное слияние — быстро трансформируют традиционные сельскохозяйственные практики. Процессы в сельском хозяйстве, включая планирование посева, управление ростом, сбор урожая и обработку после уборки, переходят от методов, основанных на опыте, к цифровым и интеллектуальным.

В этой статье систематически рассматриваются применения глубокого обучения и компьютерного зрения в управлении ростом сельского хозяйства за последнее десятилетие, классифицируя их на четыре ключевые области: идентификация культур, сортировка и классификация, мониторинг заболеваний и обнаружение сорняков. Кроме того, мы представляем классические методы и модели в области компьютерного зрения и глубокого обучения, обсуждая подходы, использующие различные типы визуальной информации. Наконец, мы подводим итоги текущих вызовов и ограничений существующих методов, предоставляя инсайты для будущих исследований и продвигая технологические инновации в сельском хозяйстве.

Введение

Развитие сельскохозяйственного производства можно в целом разделить на четыре этапа: эпоху традиционного сельского хозяйства, эпоху механизированного сельского хозяйства, эпоху автоматизированного сельского хозяйства и эпоху умного сельского хозяйства — характеризующуюся беспилотными операциями и глубокой интеграцией с информатикой [1].

Сегодня цифровая революция в сельском хозяйстве набирает обороты. В ходе этой структурной трансформации сельскохозяйственный сектор сталкивается с острой нехваткой рабочей силы из-за сокращения рабочей силы и миграции из сельской местности в города, в то время как общественный спрос на сельскохозяйственную продукцию продолжает расти. Этот дисбаланс между нехваткой рабочей силы и растущим спросом угрожает сельскохозяйственной производительности и устойчивому развитию [2].

С глобальной точки зрения, по мере обострения вызовов, связанных с продовольственной безопасностью и устойчивостью ресурсов, необходимость реформировать сельскохозяйственные практики и повысить производительность стала как никогда актуальной. Насущные вопросы, такие как рост населения, изменение климата и урбанизация, усугублённые истощением природных ресурсов, бросали тень на будущее [3]. Прогресс в сельском хозяйстве играет жизненно важную роль в экономике и выживании страны [4].

Как отмечалось в [5], достижение устойчивого сельского хозяйства требует повышения эффективности производства, внедрения прецизионного земледелия и сокращения отходов со стороны спроса. Поэтому технологические инновации и аграрная трансформация крайне важны.

Традиционно сбор сельскохозяйственных данных был трудоёмким, трудоёмким и склонным к ошибкам. Однако с интеграцией информатики и сельского хозяйства такие технологии, как дистанционное зондирование, цифровые приложения, сенсоры, гиперспектральная визуализация и искусственный интеллект, привели сельское хозяйство в эпоху интеллектуальных трансформаций [6].

Технологии компьютерного зрения играют ключевую роль в этой аграрной революции. Благодаря своим достижениям он был широко принят в умном сельском хозяйстве [7]. Глубокое обучение, область, тесно связанная с компьютерным зрением, позволяет автоматически извлекать признаки и обучаться на основе крупномасштабных наборов данных, достигая беспрецедентных возможностей в понимании изображений [8]. Он демонстрирует передовые результаты в области видеоанализа, распознавания лиц, классификации изображений, биомедицинских приложений и медицинской информатики. Кроме того, его исключительные возможности обработки данных и обучения оказываются незаменимыми в сельском хозяйстве [9].

Сельскохозяйственное производство — это сложная и систематическая отрасль, включающая полный рабочий процесс от подготовки до послеуборочной обработки. В данной работе процесс сельскохозяйственного производства классифицируется на три ключевых этапа, следующим образом. Первый этап — подготовка, требующая комплексной оценки земель, оценки состояния почвы и анализа пригодности сельскохозяйственных культур [10,11]. Современные почвенные испытания эволюционировали в интеллектуальную систему, интегрирующую спектроскопию, электрохимию, молекулярную биологию и другие технологии, что значительно повышает эффективность производства и служит критически важным компонентом в сельском хозяйстве [12].

Вторая фаза — управление ростом культур. Этот этап включает выбор семян, мониторинг роста, сортировку и классификацию, выявление заболеваний и выявление сорняков на полях. Она напрямую определяет урожайность, качество и экономическую отдачу. Интеграция компьютерного зрения и глубокого обучения на этом этапе максимизирует потенциал земли, семян, воды, удобрений и других ресурсов, одновременно снижая риски [13,14,15,16].

Последний этап — сбор урожая и обработка после уборки. Среды роста культур сложны и сезонны, при этом периоды сбора урожая часто сосредоточены в короткие промежутки времени. Методы сбора и переработки напрямую влияют на качество продукции, срок хранения и рыночную стоимость. На фоне нехватки рабочей силы и резкого спроса на урожайность переход к автоматизации и интеллектуальным решениям стал неизбежной тенденцией [17,18,19].

Быстрый прогресс компьютерного зрения и глубокого обучения подчеркнул их ключевую роль в сельском хозяйстве. Булевые поисковые запросы, использованные в базе данных Web of Science, были: («сельское хозяйство») И («компьютерное зрение») И («глубокое обучение»), при этом временные рамки ограничивались статьями последних пяти лет. В исследовании изначально было отобрано почти 3000 статей по четырём тематическим аспектам. Впоследствии были отобраны топ-10% наиболее релевантных статей, а также проведен ручной отбор на основе их тезисов, в результате чего был отобран окончательный выбор из 100 статей (рисунок 1). Примечательно, что количество публикаций по приложениям компьютерного зрения на основе глубокого обучения в сельском хозяйстве демонстрирует стабильный ежегодный рост, как показано на рисунке 2.

Рисунок 1. Блок-схема сбора данных.

Рисунок 2. Количество опубликованных статей за последние десять лет.

До начала нашей работы несколько исследований рассматривали исследования в этой области. Ссылка [20] была посвящена чайным культурам, суммируя применения компьютерного зрения и машинного обучения на трёх ключевых этапах: выращивание, сбор урожая и обработка. Ссылка [21] представила восемь типов методов сегментации изображений и рассмотрела приложения глубокого обучения в сельскохозяйственной сегментации изображений. Ссылка [16] анализировали модели глубокого обучения и обсуждали их применение для обнаружения болезней растений и вредителей.

Исследование [17] рассматривало методы обнаружения сорняков с помощью компьютерного зрения, с особым акцентом на традиционные методы обработки изображений и глубокое обучение для определения сельскохозяйственных сорняков. Тем временем ссылка [8] сосредоточилась на приложениях глубокого обучения в восприятии сельскохозяйственных культур для роботов для сбора урожая. Большинство этих обзоров либо сосредоточены на конкретной культуре, либо суммируют использование конкретных технологий в сельском хозяйстве, либо изучают решения глубокого обучения для отдельных сельскохозяйственных задач.

Однако наше исследование делает три основных вклада:

Во-первых, мы делим сельскохозяйственное производство на три ключевые этапа, с особым акцентом на применение компьютерного зрения и глубокого обучения на этапе управления ростом культур. Мы систематически рассматриваем четыре ключевых аспекта: идентификацию культур, сортировку, мониторинг заболеваний и обнаружение сорняков.
Во-вторых, в статье организованы соответствующие технологии компьютерного зрения и алгоритмы моделей на основе глубокого обучения, предоставляя классифицированный обзор методов на основе использования визуальной информации.
В-третьих, мы рассматриваем текущие исследовательские вызовы в этой области и обсуждаем будущие тенденции развития.

Обзор литературы структурирован на шесть разделов. Оставшиеся пять разделов организованы следующим образом: Раздел 2 знакомит с компьютерным зрением и синтезирует связанные технологии. Раздел 3 рассматривает несколько категорий широко используемых моделей на основе глубокого обучения. Раздел 4 содержит подробный анализ применения компьютерного зрения и глубокого обучения в управлении сельским хозяйством. Раздел 5 рассматривает современные проблемы компьютерного зрения в этой области. Наконец, в разделе 6 представлены выводы и направления будущих исследований.

Компьютерное зрение

Компьютерное зрение — важная область искусственного интеллекта. Это включает получение, понимание и интерпретацию визуальной информации путём ввода цифровых изображений или видеоданных в компьютер, а затем принятия соответствующих решений или выполнения задач на основе этой информации. Как и многие технологии, компьютерное зрение — это междисциплинарная область, которая выполняет свои функции, имитируя зрительную систему человека. Однако она опирается на алгоритмы и математические модели для обработки данных, а не на человеческие визуальные механизмы. Компьютерное зрение широко применяется в таких областях, как сельскохозяйственная автоматизация, автономное вождение и медицинская визуализация.

Зрительный механизм человека работает так, что глаза получают световые сигналы, передают их в мозг для анализа и затем реагируют на основе результатов анализа. В отличие от этого, компьютерное зрение захватывает данные изображения через камеру, анализирует их с помощью алгоритмов и, в конечном итоге, делает выводы и выводит результаты. Первым шагом в обработке задач для компьютерного зрения является извлечение значимой информации из изображений или видео, такой как данные RGB, точечные облака, глубинные данные и т.д. Полученная информация затем обрабатывается с помощью обрезки, масштабирования, извлечения признаков и других операций.

Наконец, обработанная информация используется для обучения и вывода. Поэтому получение высококачественных оригинальных визуальных данных имеет жизненно важное значение для компьютерного зрения. Так же, как зрительная система человека полагается на глаза для получения информации, компьютерное зрение зависит от различных зрительных сенсоров, а именно камер, для получения информации [22].

Распространённые камеры, используемые в компьютерном видении, включают монокулярные камеры, камеры стереовидения, камеры структурированного света и др. Кроме того, данные, полученные мультиспектральными и гиперспектральными камерами, спектральными сенсорами и другими устройствами, также могут быть обработаны и проанализированы с помощью технологий компьютерного зрения.

2.1. Монокулярная камера

Монокулярная камера — это визуальная система, использующая одну камеру для получения изображений. Он способен воспринимать информацию о цвете и текстурах в окружающей среде и обладает преимуществами простой структуры и низкой стоимости. Однако монокулярные камеры не могут напрямую вычислять информацию о глубине с помощью принципов многообзорной геометрии, и их точность ограничена.

Как простые в применении и удобные в использовании визуальные сенсоры, монокулярные камеры играют важную роль на различных этапах сельского хозяйства [23,24]. Например, в [25,26] монокулярные камеры используются для захвата целевых изображений в качестве начальных данных, которые затем обрабатываются с помощью моделей глубокого обучения для обучения и выводов с целью решения проблем орошения и сортировки сельскохозяйственных культур. В [27,28] компьютерное зрение сочетается с электронной носовой технологией для достижения практических и эффективных решений в области хранения сельскохозяйственных культур и контроля качества.

2.2. Камера стерео-вижения

Стереокамера получает глубинную информацию о сцене, имитируя принцип человеческого бинокулярного неравенства. Используется две или более камер для захвата одной и той же сцены с разных ракурсов и восстанавливает трёхмерную информацию о цели, вычисляя различия между соответствующими точками на изображениях.

Стереокамеры могут выдавать информацию о RGB и глубине, а их надёжность в закрытых сценах может быть увеличена за счёт увеличения количества точек обзора. Однако они сильно зависят от текстуры объекта, и их производительность ограничена при условиях низкой текстуры [29]. В настоящее время среди основных камер на рынке — Intel RealSense D455, ZED 2 (StereoLabs, Сан-Франциско, Калифорния, США) и камеры Basler blaze (Basler, Аренсбург, Германия).

В сельскохозяйственной сфере стереокамеры играют важную роль. Ссылка [30] использует камеру ZED2 для захвата цветных изображений и информации о облаках глубинных точек, что позволяет разработать метод обнаружения и локализации горшечных цветов в реальном времени, направленный на автоматизированное управление цветами в теплицах. В [31] видео записываются вокруг кадров для извлечения многоугольных кадров.

Обнаружение сорняков в реальном времени проводится с помощью технологии 3D-реконструкции. Ссылка [32] предлагает бесконтактный метод измерения размера овощей на основе стереокамер и обнаружения ключевых точек, интегрируя координаты пикселей и значения глубины ключевых точек для повышения точности обнаружения малых целей. Ссылка [33] генерирует карты глубины с помощью расчёта стерео диспропорций, тем самым реконструируя трёхмерную модель поверхности почвы.

Этот бесконтактный метод, основанный на стереовидении, позволяет количественно оценить шероховатость поверхности почвы и оценить качество обработки почвы. Кроме того, исследование [34] является методом обнаружения растений, основанным на данных RGB-D, направленным на выявление культур и сорняков в густонаселенных местах, а также обобщение ограничений текущих стерео-данных о глубине зрения в обнаружении растений.

2.3. Камера с структурированным светом

Камера структурированного света — это активное 3D-устройство для съёмки, которое проецирует определённые световые узоры, такие как точечные узоры, полосы и закодированная графика, на поверхность целевого объекта. Затем он фиксирует деформированные узоры с помощью камеры и рассчитывает информацию о глубине объекта на основе принципа триангуляции для реконструкции его трёхмерной формы. Камера состоит из одной или нескольких монокулярных камер и проектора.

Он проецирует серию известных паттернов в сцену и использует соответствие между проекционными кадрами и захваченными кадрами для получения информации о глубине на основе степени деформации узора. По сравнению со стереокамерами, она может добиваться хороших результатов даже для объектов с слабыми текстурами, а точность глубины выше при расчёте деформации закодированных световых пятен или полос. Камеры структурированного света также имеют некоторые недостатки, такие как помехи от сильных источников света, и их стоимость, как правило, выше, чем у монокулярных и стереокамер [35,36].

В [37] была определена система структурированной световой проекции, при которой структурированный свет проецируется сверху и по бокам, охватывающий всё растение. Это решает проблему недостаточной поверхностной текстуры растений, повышая точность подбора и обеспечивая эффективную сегментацию растений с фона даже в условиях низкой освещённости. Ссылка [38] использует встроенные проекторы и промышленные камеры для построения системы структурированной световой камеры, динамически регулируя ширину полос для пропорционального масштабирования каждого слоя.

Это обеспечивает плотность точечного облака и улучшает возможности обнаружения малых дыр. Ссылка [39] использует недорогие структурированные световые камеры для проведения многоугольного сканирования, калибровки данных и проверки производительности, а также извлечения параметров с целью измерения трёхмерного тела коров. Это обеспечивает недорогой, бесконтактный мониторинг роста коров.

2.4. Гиперспектральные и мультиспектральные камеры

Гиперспектральные датчики получают подробную спектральную информацию о целях через непрерывные узкие полосы, формируя почти непрерывные спектральные кривые. Мультиспектральные датчики захватывают спектральную информацию о целях через несколько дискретных широких полос (обычно 5–10) с широкополосными интервалами (например, видимый свет, ближний инфракрасный, коротковолновый и др.). Гиперспектральные датчики успешно применяются в различных областях, позволяя одновременно получать пространственную и спектральную информацию.

По сравнению с другими визуальными сенсорами, гиперспектральные датчики имеют больше спектральных диапазонов, что позволяет более полно захватывать спектральную информацию. Гиперспектральные режимы визуализации можно классифицировать на режимы отражения, передачи и взаимодействия [40]. Когда необходимо увеличить количество признаков и повысить скорость обработки, можно рассмотреть мультиспектральную систему. Он может получать данные с нескольких длин волн информации, фиксируя их спектральные характеристики [41].

Гиперспектральные и мультиспектральные датчики имеют широкое применение в сельском хозяйстве [42]. Выполняя многомасштабное разложение гиперспектральных данных и извлекая глубокие спектральные особенности с помощью структуры кодирования и декодирования, можно достичь эффективного и безпотерь обнаружения композитных тяжёлых металлов в салате. В [43] исследователи выбрали пять диапазонов длин волн с помощью мультиспектральной камеры и объединили мультиспектральные изображения с моделью глубокого обучения. Этот подход применялся для прогнозирования биомассы и урожайности пшеницы, направляя точную работу комбайнов.

В [44] была использована технология гиперспектральной визуализации для получения гиперспектральных кубов данных с помощью линейного сканирования, извлекая средние спектры из интересующих областей для построения линейных и нелинейных моделей классификации. Это позволило быстро и недорого выявлять оранжевую гниль на основе гиперспектральной визуализации. Видно, что последние исследования сосредоточены на сочетании глубокого обучения с полноценным гиперспектральными и мультиспектральными сенсорами.

Это позволяет проводить сверхвысокоточный анализ и раннее обнаружение в сельском хозяйстве, многомерное слияние данных и интеллектуальное принятие решений, способствуя быстрому развитию точного сельского хозяйства [45,46,47,48,49].

2.5. Датчики и спектрометры инфракрасного зрения

Инфракрасный датчик зрения — это устройство для визуализации или обнаружения, способное обнаружить, принимать и обрабатывать инфракрасное излучение. Он захватывает инфракрасный излучение, исходящее или отраженное объектами, для создания видимых или анализируемых инфракрасных изображений. Он широко применяется в таких областях, как ночное видение, измерение температуры и отслеживание целей [50].

Ближняя инфракрасная спектроскопия — это проникающий спектр, чьи неинвазивные и точные характеристики делают её широко используемой в сельском хозяйстве. Например, он обеспечивает неразрушительное тестирование для сельского хозяйства и оценку качества внутренней части питания [51,52]. Кроме того, сочетание ближнего инфракрасного спектроскопии с компьютерным зрением позволяет автоматически дифференцировать характеристики культур, такие как внешний вид, форма, цвет и текстура, отвечая требованиям сортировки культур [53,54]. Он также способствует мониторингу состояния культур, раннему предупреждению о вредителях и болезнях, а также оптимизации урожайности.

Традиционные камеры с видимым светом имеют ограничения в обработке изображений при сложных условиях освещения. Использование инфракрасных датчиков для создания инфракрасных тепловых изображений в сочетании с обработкой изображений для извлечения объектов может эффективно решать проблемы, вызванные сильными световыми помехами [55,56].

Ссылка [57] использует спектрометр для динамического сбора спектров передачи грушевых плодов, что позволяет получать спектральные данные в реальном времени. Визуализируя спектральные особенности и анализируя их распределение с помощью визуальных методов, система достигает онлайн-неразрушительного обнаружения потемнения груши.

Кроме того, были использованы методы компьютерного зрения для объединения мультимодальных данных, таких как ближний инфракрасный спектр и тепловизионная визуализация, что позволило в реальном времени онлайн-обнаружение посевов и быстрое обнаружение утечек в капельных системах орошения для сельскохозяйственных применений [58,59].

Глубокое обучение

Глубокое обучение (ДЛ) — это подраздел машинного обучения, вдохновлённый структурой нейронов в человеческом мозге. Он автоматически осваивает многоуровневые представления признаков данных, моделируя структуру нейронных сетей человеческого мозга.

Глубокое обучение использует несколько уровней нелинейных преобразований для постепенного абстрагирования исходных данных в высокоуровневые представления признаков, что позволяет эффективно выполнять такие задачи, как классификация, прогнозирование и генерация. Возможность автоматически извлекать высокоуровневые функции из больших наборов данных без использования вручную разработанных функций привела к росту внедрения глубокого обучения в различных отраслях [60,61].

DL включает несколько основных процессов. Сначала данные распространяются слой за слоем от входного слоя к выходному слою для вычисления прогнозных результатов (прямое распространение). Затем, исходя из ошибки предсказания, правило цепи используется для корректировки параметров сети (весов и смещений) с выходного слоя назад (обратное распространение).

Путём итеративной оптимизации функции потерь ошибка предсказания постепенно уменьшается до достижения сходимости. Потенциал DL привёл к значительным достижениям в сельскохозяйственной сфере [62]. В [63] для обработки данных временных рядов, собираемых датчиками, используются рекуррентные нейронные сети (RNN), что предлагает модуль IoT на основе глубокого обучения для обеспечения умного сельского хозяйства в различных условиях окружающей среды.

Сверточные нейронные сети (CNN) являются ключевым компонентом глубокого обучения, предлагая расширенные возможности извлечения признаков по мере увеличения числа слоёв, хотя это также приводит к проблеме градиентного взрыва [64]. В [65] исследователи внедрили глубокие остаточные сети (ResNet) в область идентификации сельскохозяйственных вредителей для решения проблемы градиентного взрыва в глубоких слоях.

Этот подход используется для выявления сельскохозяйственных вредителей в сложных сельскохозяйственных условиях. Глубокое обучение подчёркивает важность изучения признаков и предложило множество классических механизмов, сетевых структур и моделей для более эффективного и быстрого изучения признаков [66].

3.1. Механизм внимания

Как и компьютерное зрение, механизм внимания вдохновлён биологической структурой человека и имитирует когнитивное внимание человека. Это классический и практический метод в области глубокого обучения. При обработке больших объёмов информации она сосредотачивается на ключевых частях, присваивает разные веса в зависимости от важности информации и определяет, какие части входных данных заслуживают большего внимания, тем самым повышая эффективность модели при использовании ключевой информации [29]. Механизм внимания впервые был введён в нейронные сети в [67], за которым последовали классические механизмы внимания, такие как сжатие и поощрение внимания [68] и многоголовое внимание [69] (рисунок 3).

Рисунок 3. Блок сжатия и возбуждения [68].

При внедрении умного и прецизионного земледелия механизм внимания является одной из ключевых технологий. Это помогает сельскохозяйственным моделям анализировать и принимать решения более эффективно, сосредотачиваясь на ключевых данных. Для лучшей оценки плотности цвета персика в этапах выделения признаков и многомасштабного слияния признаков был внедрён модуль внимания в [70], чтобы повысить способность сети фокусироваться на ключевых деталях цветков персика и подавлять помехи от нерелевантных фонов.

В [71] для точной идентификации и различия схожих болезней листьев было использовано внимание с ограниченным стимулом для увеличения веса важных заболеваний, эффективно сосредоточившись на заражённых областях и достижению высокоточной модели диагностики заболеваний. Кроме того, в [72] используются пространственное самовнимание на уровне пикселей (P-FSA) и блочное самовнимание канала (B-FSA). Фиксируя тонкие локальные признаки и различая различные глобальные признаки, эффективное извлечение признаков достигается в классификации болезней мелкозернистых культур.

3.2. Модели на основе трансформаторов

Transformer — это архитектура модели глубокого обучения, основанная на механизмах самосознания, предложенных в 2017 году [69]. С момента своего появления трансформер был включен во множество статей, что принесло инновационные результаты. В области глубокого обучения многие задачи (такие как генерация текста и сегментация изображений) могут быть реализованы с помощью архитектуры Transformer (рисунок 4).

В 2020 году ссылка [73] предложила Vision Transformer (ViT) — визуальный трансформатор, предназначенный для классификации изображений. Это исследование значительно продвинуло развитие трансформеров, что привело к появлению эффективных по данным трансформаторов изображений, шунтовых трансформаторов и архитектур кросс-формеров [74]. Эти исследования сыграли важную роль в сельскохозяйственной сфере.

Рисунок 4. Трансформер — модель [69].

Ссылка [75] была посвящена проблемам болезней сельскохозяйственных культур на сельскохозяйственных полях, где сложно сосредоточиться на больных участках в сложных условиях. Встраивая Transformer Encoder в улучшенную легкую сверточную нейронную сеть, были установлены дальнодействующие зависимости признаков для извлечения глобальных признаков из заражённых изображений.

Этот подход обеспечил отличную производительность на нескольких наборах данных. Аналогично, рассматривая проблемы сельскохозяйственных болезней, ссылка [76] была направлена на устранение нестабильности существующих моделей в спектральных диапазонах (видимый свет и ближний инфракрасный). В статье используются различные архитектуры Vision Transformer (ViT) и их гибридные варианты, в сочетании с мультиспектральной визуализационной технологией для достижения высокоточного раннего обнаружения болезней растений в сложных условиях.

3.3. Сегментация изображений и модели обнаружения изображений

Сегментация изображений — одна из основных задач компьютерного зрения, целью которой является разделение изображения на семантически значимые области. В зависимости от требований задачи сегментации изображений можно дополнительно разделить на три типа: семантическая сегментация, сегментация экземпляра и паноптическая сегментация. Цель семантической сегментации — присвоить метку категории каждому пикселю на изображении, не различая разные экземпляры. Сегментация экземпляров требует различия между разными экземплярами одной категории.

Наконец, панорамная сегментация объединяет характеристики семантической сегментации и сегментации экземпляров [29,77]. Модели обнаружения изображений также являются одной из основных задач компьютерного зрения, направленными на идентификацию объектов на изображениях и представление их расположения с помощью ограничивающих рамок или масок.

В отличие от моделей сегментации, модели обнаружения изображений должны одновременно решать вопросы «что» и «где». Модели обнаружения можно разделить на два типа: двухступенчатые модели, которые сначала генерируют кандидатные области, а затем классифицируют и регрессируют эти области; другая категория состоит из одноступенчатых моделей, которые напрямую предсказывают категории объектов и расположение без необходимости генерации кандидатных областей [78].

В отличие от традиционных методов, основанных на ручной разработке признаков, глубокое обучение предоставляет моделям обнаружения мощные возможности для извлечения признаков и сквозные обучающие рамки, позволяя автоматически изучать категории и расположение целевых объектов. Сегментация и обнаружение изображений на основе глубокого обучения развиваются быстро и приносят большие перспективы в сельскохозяйственной сфере.

В [79] методы обнаружения объектов и сегментации изображений используются на основе глубокого обучения для оценки зрелости томатов и их определения. Точность обнаружения стеблей томатов в сложных сельскохозяйственных условиях повышается, что позволяет эффективно осуществлять автоматизированный сбор урожая. Кроме того, эти методы могут применяться для мониторинга посевов, выявления вредителей и болезней, автоматизированного сбора урожая и управления орошением в точном земледелии [80,81].

Сельскохозяйственные применения

Компьютерное зрение и глубокое обучение применяются на различных этапах сельскохозяйственных процессов. В этой главе изложены итоги их применения на этапе управления ростом. На этом этапе мы рассматриваем четыре основных аспекта: идентификацию и обнаружение культур, рейтинг и классификацию, мониторинг заболеваний и идентификацию сорняков.

4.1. Идентификация и обнаружение сельскохозяйственных культур

Идентификация и локализация культур играют ключевую роль в современном сельском хозяйстве, поскольку необходимо точно отслеживать условия и расположение культур на протяжении всего сельскохозяйственного процесса. Ранее идентификация и локализация культур в основном основывались на ручных визуальных осмотрах в поле, что обеспечивало прямой способ мониторинга состояния роста посевов. Однако нынешняя нехватка рабочей силы привела к росту затрат, связанных с этим методом.

С развитием компьютерных технологий и широким внедрением автоматизации ручной мониторинг посевов постепенно заменяется, что помогает снизить нехватку рабочей силы и лучше отслеживать динамику культур в реальном времени [29]. Идентификация культур позволяет оценить плотность посевов и определить их местоположение. Оценка плотности помогает в планировании и управлении посадкой, обеспечивая посадку культур с разумной плотностью для увеличения урожайности.

Определение местоположения культур может служить ориентиром для автоматизированного сбора урожая, повышая эффективность и экономя человеческие ресурсы, а также облегчать эксплуатацию в зависимости от типов культур [82,83]. Однако по сравнению с ручной проверкой, компьютерное зрение сталкивается с различными трудностями при идентификации и обнаружении посевов, такими как фоновые помехи, изменения освещения и окклюзия объектов (рисунок 5). Поэтому предоставляется обзор статей по исследованиям по идентификации и обнаружению культур (Таблица 1).

Рисунок 5. Проверка Apple под окклюзией, в пакетах и ночью.

Таблица 1. Краткое изложение применения компьютерного зрения и глубокого обучения для идентификации и обнаружения сельскохозяйственных культур.

Reference	Target	Approach	Performance	Hardware Specifications	Number of Datasets
[84]	Apple detection and localization	YOLOX, SPP	F1: 93% mAP50: 94.09% speed: 167.43 FPS	i7+RTX 2080Ti (Intel, Santa Clara, CA, USA)	4785
[14]	Apple target recognition	YOLOv4, EfficientNet-B0, PANet	mAP50: 93.42% Recall: 87.64% speed: 63.20 FPS	NVIDIA GTX 1080Ti (Nvidia, Santa Clara, CA, USA)	10,385
[83]	Distribution density of strawberry fruits	YOLOv8n, Squeeze-and-Excitation, Kernel Density Estimation	mAP50-95: 87.3% Recall: 90.7% Speed: 15.95 FPS	NVIDIA GTX 1080Ti (Nvidia, Santa Clara, CA, USA)	4500
[85]	Recognition of apple	SVM, BPNN, Watershed Algorithm	FNR: 4.65% FPR: 3.50%	NVIDIA GTX 1080Ti (Nvidia, Santa Clara, CA, USA)	___
[86]	Tea detection	YOLOv4, DepC, DCN, Coordinate Attention, MobileNetV3	Precision: 85.35% Recall: 78.42% mAP50: 82.12%	NVIDIA GTX 1080Ti (Nvidia, Santa Clara, CA, USA)	4347
[87]	Tomato detection	YOLOv10, DyFasterNet, D-LKA	mAP50: 91.8% mAP50-95: 63.8% Speed: 80.1 FPS	NVIDIA GTX (Nvidia, Santa Clara, CA, USA)	2000
[88]	Tomatoes detection	YOLOv4-Tiny, CBAM	mAP50: 90.78% Speed: 31.04 FPS	NVIDIA GTX (Nvidia, Santa Clara, CA, USA)	8112
[89]	Red pear small-target recognition	YOLOv9s, SCDown, C2FUIBELAN	mAP50-95: 84.8% mAP50: 99.1% Recall: 97% Speed: 83.64 FPS	NVIDIA A16 (Nvidia, Santa Clara, CA, USA)	1580
[90]	Recognition of mango	YOLOv5s, RepVGG	Precision: 84.81% Recall: 85.64% mAP50: 82.42% Speed: 39.73FPS	NVIDIA GeForce RTX 3090 (Nvidia, Santa Clara, CA, USA)	1760
[91]	Blossom detection	VoVNet, CenterNet2, Location Guidance Module	mAP50: 74.33% Speed: 47FPS	NVIDIA RTX GTX 3090 (Nvidia, Santa Clara, CA, USA)	2760

Обнаружение и идентификация культур в сложных условиях всегда было сложной задачей. Как упоминалось в [14], яблоки сталкиваются с такими проблемами, как обструкция листьев, плотные грозди плодов и недостаточное освещение ночью. Кроме того, яблоки требуют упаковки в процессе роста, что дополнительно усложняет идентификацию и локализацию. В этом исследовании впервые заменяется нативная сеть YOLOv4 на легкую сеть в качестве сети извлечения признаков, что значительно сокращает количество параметров модели (размер модели составляет всего 29,8 МБ, что на 87,8% меньше исходного YOLOv4).

Во-вторых, дополнение данных было применено для увеличения разнообразия фона и выборок малых объектов, что повысило устойчивость модели в сложных средах. Наконец, были объединены пространственные пирамидальные пулы и многослойные механизмы синтеза признаков для улучшения возможностей обнаружения малых объектов.

При уменьшении размера модели и повышении эффективности обнаружения, точность осталась в значительной степени неизменной. Что касается повышения точности обнаружения, ссылка [85] также рассматривает проблему идентификации яблок в сложных условиях. В этом исследовании RGB-изображения преобразуются в R–G серые для усиления контраста фруктов и фона. Он сегментирует изображения на неправильные участки для классификации, повышая устойчивость к вариациям освещения и снижая ошибочную идентификацию, вызванную пакетированием.

Оптимизированный алгоритм водосборного бассейна повышает эффективность сегментации. Метод достигает значительно большей точности с минимальными накладными расходами на предварительную обработку — приемлемое значение для критически важных для точности приложений.

Для идентификации и обнаружения культур необходимо проводить не только индивидуальное обнаружение объектов, но и оценка плотности, что особенно важно. В [83] были предприняты усилия для решения проблемы пропущенных обнаружений, вызванных окклюзией и перекрытием плодов, а также количественным анализом пространственного распределения клубники для оценки разумной плотности посадки.

В этой статье вводится механизм сжатого стимулирующего внимания и функция потерь эффективного пересечения над объединением (EIOU) в модуль YOLO. Механизм сжатого стимулирующего внимания усиливает фокус на клубничных особенностях, в то время как функция потерь EIOU оптимизирует регрессию ограничивающих коробок. Это повышает точность обнаружения модели в ситуациях с окклюзией и перекрытием фруктов.

Модель использует Kernel Density Estimation (KDE) и анализ ближайших соседей (NNA) для оценки плотности, обеспечивая первый сквозный анализ от обнаружения объектов до распределения плотности на изображениях клубники, предоставляя более подробную информацию о пространственном распределении. Модель превосходит YOLOv3 по точности. Кроме того, модель обнаруживает области с высокой плотностью и чёткими границами, совпадающими с реальными распределениями.

Однако морфология культур меняется на разных стадиях, и определение плотности при мелких плодах не учитывается. В [82] предлагаемая модель может учитывать разнообразие периодов цветения и уровней зрелости плодов, а также учитывать обнаружение небольших и плотно распределённых объектов. В этой статье представлена модель U-Net с оптимизированным энкодером ConvNeXt-T, который снижает параметры при сохранении производительности.

Модель интегрирует ветки оценки плотности и сегментации, используя модуль сверточного блока внимания (CBAM) для усиления характеристик целевых функций и подавления фонового шума, повышая устойчивость в сложных фермерских условиях. Случайное переворачивание изображений во время тренировки усиливает обобщение. Однако более высокие входные разрешения заменяют эффективность на точность, а недостаток маркированных данных может привести к перенагону. Модель подходит для устройств с ограниченными ресурсами (например, дронов или смартфоны) для крупномасштабных обследований садов.

Различные морфологии культур обладают отличительными характеристиками. Ссылка [86] достигает баланса между скоростью и точностью благодаря лёгкому дизайну и модулям усиления функций. Используя изображения, сделанные при различных условиях освещения, в качестве наборов данных он успешно позволяет обнаруживать чайные бутоны в любых погодных условиях. Ночная производительность модели всего на 0,76% ниже, чем при оптимальном освещении. Однако его эффективность ограничена в случаях окклюзии, так как при аннотации данных были исключены почки с более чем 75% окклюзии.

Ссылка [87] вводит деформируемый механизм большого ядра на выходе сети для улучшения возможностей обнаружения окклюзированных и деформированных целей. Частотная доменная дистилляция признаков (FreeKD) используется для передачи знаний от крупных моделей к лёгким моделям. Этот модуль динамической свёртки с несколькими ядрами расширяет возможности модели по извлечению признаков для помидоров разных размеров и форм, адаптивно агрегируя ядра свёртки разных размеров, что обеспечивает высокоточное обнаружение томатов. Традиционные модели часто испытывают трудности с точным обнаружением мелких плодов с переменной формой.

Для решения этой проблемы ссылка [89] сосредоточена на исследованиях обнаружения мишень для мелких красных груш. Предлагаемый метод включает модуль Spatial-Channel Decoupled Downssampleling (SCDown) для оптимизации процесса понижения дискретизации при сохранении мелких деталей небольших целей. Исследование расширило оригинальный набор данных из 395 изображений за счёт дополнения данных, в итоге создав набор из 1580 изображений. Однако у набора данных есть несколько ограничений: он содержит мало окклюзированных выборок; Изображения в основном снимались днём с недостаточным представлением экстремальных условий освещения; а эксперименты проводились в одном саду без межрегиональной или межкультурной валидации обобщаемости модели.

Обнаружение киви также сталкивается с такими трудностями, как плотный рост, заложенность листьев и перекрытие плодов. Поэтому ссылка [92] сосредоточена на идентификации и локализации киви. В данном исследовании сочетается механизм координационного внимания (CA) с YOLO для извлечения признаков и оптимизируется функция потерь за счёт интеграции фокальных потерь (для устранения классового дисбаланса), потери EIoU (для повышения точности локализации ограничивающих коробок) и потери доверия. Он использует локализацию стерео-зрения и 2D-координаты для вывода реального местоположения киви. Это обеспечивает распознавание и локализацию киви в реальном времени, облегчая последующее управление и сбор урожая.

4.2. Сортировка сельскохозяйственных культур

По мере улучшения уровня жизни требования людей к качеству урожая продолжают расти. В сельскохозяйственных процессах научное оценивание и сортировка культур является основным способом повышения эффективности отрасли [93]. Создав стандартизированную систему оценки, можно точно направлять управление производством, добиваться отбора высококачественных сортов и принимать разумные решения по времени сбора на основе оценки зрелости на этапе сбора урожая, чтобы снизить потери.

На этапе обработки оценка на основе различий в качестве позволяет оптимизировать обработку для максимизации отдачи [94]. В управлении ростом культур классификация культур по сортам является важным шагом для удовлетворения потребностей потребителей и перерабатывающей промышленности в высококачественных культурах (рисунок 6). Ручные визуальные осмотры не имеют последовательности, и даже при соблюдении стандартов допускаются ошибки, а процесс требует трудоёмких усилий [95]. Поэтому крайне важно использовать технологии глубокого обучения, компьютерного зрения и обработки изображений (Таблица 2) для повышения точности систем оценки.

Рисунок 6. Таблица оценки качества сельскохозяйственных культур.

Таблица 2. Краткое изложение применения компьютерного зрения и глубокого обучения в сортировке культур.

Reference	Target	Approach	Performance	Hardware Specifications	Number of Datasets
[96]	Apple Grading	YOLOv5s, Squeeze-and-Excitation	mAP50: 90.6% Precision: 95.1% Recall: 95.2% Speed: 59.63 FPS	NVIDIA GTX1660Ti (Nvidia, Santa Clara, CA, USA)	6000
[97]	Tea Grading	YOLOv8n, SPD-Conv, Super-Token Vision Transformer	mAP50: 89.1% Precision: 86.9% Recall: 85.5%	NVIDIA GeForce RTX 3060 (Nvidia, Santa Clara, CA, USA)	3612
[98]	Tobacco Leaf Grading	A-ResNet-65, ResNet-34, BN-PReLU-Conv	Precision: 91.30% Speed: 82.18 FPS	NVIDIA GeForce GTX 1080Ti (Nvidia, Santa Clara, CA, USA)	22,330
[99]	Tobacco Leaf Grading	VGG16, FPN-CBAM-ResNet50, FPN, CBAM	Precision: 80.65% Speed: 42.1 FPS	2 × NVIDIA GeForce GTX 1080 Ti GPU (Nvidia, Santa Clara, CA, USA)	22,322
[100]	Detection of Carrot Quality	ResNet-18, Squeeze-and-Excitation, DCGAN	Precision: 98.36% F1score: 98.41%	NVIDIA GTX 2060 (Nvidia, Santa Clara, CA, USA)	6086
[101]	Mangosteen Grading	MobileNetV3, InceptionV3, CBAM	Precision: 97.15% Recall: 97.75%	NVIDIA GTX (Nvidia, Santa Clara, CA, USA)	20,000
[102]	Grading Fruits	ResNet50, DenseNet121, EfficientNet, MobileNetV2	A Precision: 99.2% ± 0.12% B Precision: 98.6% ± 0.42	___	9091
[103]	Apple Grading	CNN, Softmax, Max Pooling	Precision: 92%, Recall: 91%, Speed: 72 FPS	Intel E7400 CPU (Intel, Santa Clara, CA, USA)	79,200

Традиционная сортировка сельскохозяйственных культур основана на ручном труде или простом машинном видении (например, SVM и KNN), что испытывает трудности с обработкой сложных особенностей. Поэтому глубокое обучение было использовано для оценки Apple в [96]. Это исследование внесло три улучшения в модель YOLOv5.

Функция активации Mish заменила исходную функцию для усиления возможностей глубокого извлечения объектов. Функция DIoU_Loss потерь использовалась для оптимизации регрессии ограничивающих коробок, что повышало точность локализации и скорость сходимости. Модуль сжатия и возбуждения внимания встроен в магистральную сеть для усиления внимания к ключевым особенностям яблок. Баланс между точностью и эффективностью достигается через совместную оптимизацию трёх компонентов.

Однако из-за дисбаланса в настройке данных и недостатка данных о яблоках третьего класса модель склонна к перенагону при обнаружении яблок третьего класса. Ссылка [104] стремится сбалансировать точность с лёгким весом моделей. Во-первых, ссылка [104] использует целевые данные с разных точек зрения, чтобы решить ограничения традиционных методов, которые основаны на изображениях с одной перспективой и не могут полностью захватить информацию с поверхности Apple.

Затем, за счёт добавления лёгких и динамических свёрток в модуль обнаружения, возможность извлечения признаков улучшается, снижая вычислительную нагрузку, что повышает скорость вывода. Кроме того, в данном исследовании интегрирован модуль трансформатора Swin в магистральную сеть, используя механизм самовнимания окна для интеграции глобальных признаков и повышения точности оценки. При достижении облегчения модели сохраняется точность градировки. Тем не менее, это исследование по-прежнему сосредоточено на яблоках как на одной культуре, и его возможности по обобщению также имеют ограничения.

По сравнению с культурами, такими как яблоки, которые имеют крупные плоды и рассеянные цели, такие культуры, как чай и табак, имеют целевые показатели по сортировке на основе листьев. Листья тонкие и склонны склеиваться, с перекрытиями и трудностями в определении зрелости. Кроме того, сортировка и классификация таких культур строгие, при этом каждая сортировка соответствует определённой цене.

Для чая традиционная ручная сортировка неэффективна и дорогостояща, а существующий механический сбор часто смешивает разные сорта, что влияет на качество последующего процесса. Ссылка [97] Основанный на модели YOLOv8n, модуль SPD-Conv используется для улучшения возможностей извлечения объектов с низким разрешением и малоцелевых объектов, таких как чайные листья. Кроме того, для снижения избыточных информационных помех и улучшения восприятия малых целей, используется супер-токен-трансформер зрения (SViT). Для лучшей классификации чайных листьев собираются и расширяются данные, охватывающие различные условия освещения и погодные условия, при этом разные сорта чайных листьев аннотируются с аннотациями.

Это повысило точность автоматической оценки чая. Аналогично, чтобы решить проблемы низкой эффективности и сильной субъективности в традиционной ручной сортировке, Лу и др. [98] предложили метод, при котором листья табака классифицируются по разным сортам на основе их локальных признаков. Чтобы передать тонкие местные черты табачных листьев, была разработана модель ансамбля с двумя ветвями. Улучшенная сеть A-ResNet-65 служит глобальной веткой для пропорционального масштабирования всего изображения. Локальная ветка использует сеть ResNet-34 для обрезки локальных блоков изображений из изображений высокого разрешения.

Результаты двойных ветвей интегрируются с помощью взвешенного метода голосования для объединения признаков. В экспериментальных испытаниях на восьми различных сортах табачных листьев финальная модель достигла точности классификации 91,30%. Однако динамическое тестирование не было рассмотрено. Исследование [99] также использует двухветвительный подход, внедряя в сеть ResNet50 механизм внимания, основанный на каналах (CBAM). Разработанная архитектура FPN-CBAM-ResNet50 интегрирует функции низкоуровневой детализации с высокоуровневыми семантическими особенностями, что улучшает способность модели фиксировать тонкие различия. VGG16 служит глобальной сетью филиалов, применяя стратегию билинейного пула для слияния признаков.

Этот метод был протестирован на динамической производственной линии, обеспечив динамическую высокоскоростную сортировку табачных листьев. Однако модель обладает большим количеством параметров, что обеспечивает высокую вычислительную сложность для поддержания точности. Кроме того, обучение на лабораторных данных может испытывать трудности с обобщением на табак из других регионов или лет, что создаёт проблемы с адаптивностью в области.

В дополнение к вышеупомянутым исследованиям, ссылка [100] предложила метод оценки качества моркови. В этом исследовании была использована глубокая сверточная генеративная состязательная сеть (DCGAN) для создания высококачественных изображений моркови, а также дифференциальный алгоритм хеширования для удаления низкокачественных или дублирующихся образцов из сгенерированных изображений.

В исследовании использовался ResNet-18 в качестве основной сети, использовался сжатый модуль стимулирующего внимания для усиления веса ключевых признаков и оптимизирован модуль классификатора для сохранения большего количества деталей. Хотя был достигнут прогресс в классификации перекрестных культур, высокоточное обнаружение было достигнуто при оценке качества моркови. Ссылка [101] также использовала канальный модуль внимания (CBAM) для улучшения выделения ключевых признаков. Улучшенная сетевая структура позволила мультимасштабно объединять признаки, обеспечивая эффективную и точную классификацию мангостинов.

4.3. Мониторинг заболеваний

Обеспечение здорового роста культур и поддержание урожайности являются фундаментальными целями сельскохозяйственных процессов. Болезни могут привести к значительному снижению урожайности, что приводит к значительному ущербу сельскому хозяйству [105]. В современном обществе постоянный рост урожайности и эффективности сельского хозяйства во многом объясняется применением глубокого обучения и компьютерного зрения для мониторинга болезней сельскохозяйственных культур [106].

Поэтому интеграция компьютерного зрения и глубокого обучения для обнаружения, классификации и диагностики заболеваний является ключевым элементом управления ростом культур и важным трендом развития. Болезни сельскохозяйственных культур можно классифицировать на болезни растений и вредителей-насекомых (рисунок 7).

Болезни растений вызываются патогенами (такими как грибы, бактерии или вирусы) или небиологическими факторами (например, дефицитом питательных веществ или повреждением пестицидов), что приводит к аномальной физиологической функции растений и приводит к подавлению роста, снижению урожайности или ухудшению качества. Вредители насекомых, напротив, наносят вред посевам через прямое питание вредными насекомыми или косвенную передачу патогенов. Краткое изложение соответствующих исследований приведено в Таблице 3.

Рисунок 7. Некоторые выборки выбраны из публичных наборов данных.

Таблица 3. Краткое изложение применения компьютерного зрения и глубокого обучения в мониторинге заболеваний.

Reference	Target	Approach	Performance	Hardware Specifications	Number of Datasets
[107]	Disease detection	YOLOv8n, RepGFPN, Coordinate Attention	Recall: 84.2% mAP50: 88.9% Speed: 219.5 FPS	NVIDIA GeForce RTX 4060 (Nvidia, Santa Clara, CA, USA)	1083
[108]	Disease classification	CNN, Vision Transformer, Separable Self-Attention	Data1 Precision: 99.71% Data2 Precision: 98.78%	NVIDIA GeForce RTX 4090 (Nvidia, Santa Clara, CA, USA)	58,367
[109]	Detection of pests	YOLOv4, EfficientNetV2-S, Fully CNN	mAP50: 84.22% Speed: 4.72 FPS	2×GeForce GTX 1080 Ti (Nvidia, Santa Clara, CA, USA)	3557
[110]	Pest identification	ResNet, Self-Attention	Accuracy: 99.80% F1: 99.33%	Google Colab Pro Platform (https://colab.google/)	4500
[111]	Plant pest and disease detection	YOLOv3, Faster R-CNN, Inception	mAP50: 85.2% Speed: 23 FPS	NVIDIA RTX 3080 (Nvidia, Santa Clara, CA, USA)	26,106
[112]	Disease classification	CNN, GAN, LSTM	Bacterial Blight: Precision: 96% Recall: 97% F1: 99%	___	5120
[113]	Detection of rice pests	YOLOv8n, FastGAN, Fully Connected Bottleneck Transformer, SPPF	mAP50: 93.6% Speed: 59.52 FPS	NVIDIA Tesla T4 (Nvidia, Santa Clara, CA, USA)	13,877
[114]	Detection of pests	CNN, GNN, SPPF	F1: 87.24% Recall: 81.16% Precision: 87.40%	NVIDIA GeForce GTX 1050 Ti (Nvidia, Santa Clara, CA, USA)	2850

Для человеческого глаза очевидные формы, такие как пятна на листьях, можно быстро заметить. Однако некоторые болезни не имеют явных симптомов, и к моменту появления очевидных симптомов растения уже подверглись серьёзным повреждениям [106]. Компьютерное зрение на основе глубокого обучения может эффективно обнаруживать и классифицировать болезни растений. В [115] исследователи извлекли особенность соотношения сторон ограниченного прямоугольника (CRAR) и особенность гистограммы ориентированных градиентов (HOGs), чтобы различать морфологические различия между больными и здоровыми рисовыми растениями.

Впоследствии для синтеза признаков с целью повышения точности распознавания использовалась сверточная нейронная сеть. В статье были разработаны два режима — офлайн и онлайн — для совместной работы, адаптируясь к неблагоприятным сетевым средам. Это достигло цели быстрого обнаружения болезни черного стебля риса в полевых условиях. Аналогично, ссылка [116] также предложила метод быстрого обнаружения черной стеблевой ржавчины. Однако обе статьи не рассматривали многомасштабное слияние признаков, что является неоптимальным для обнаружения малых объектов.

В ответ ссылка [107] предложила YOLOv8-GDCI для точного обнаружения фитофтороза Phytophthora в различных частях чили. В этом исследовании используется сеть слияния признаков RepGFPN для параллельной обработки и межуровневого синтеза признаков, что повышает возможности экспрессии многомасштабных признаков. Динамический алгоритм увеличения выборки расширяет рецептивное поле. Координационное внимание (CoordAtt) вводится в магистральную сеть, объединяя информацию о каналах и пространственном положении для повышения возможности фиксировать ключевые особенности заболеваний. Этот механизм эффективно захватывает плотные поражения и адаптируется к сценариям плотного поражения.

Для набора данных, используемого в эксперименте, ярлыков листьев гораздо больше, чем на стеблях, что может привести к снижению возможностей обнаружения повреждений стеблей у модели. Кроме того, экспериментальные данные были собраны при относительно однородных условиях освещения, и результаты могут отличаться в реальных условиях, таких как пасмурные дни или ночи. Таким образом, при развертывании в сценариях с высоким уровнем ресурсов полная модель может использоваться с изображениями высокого разрешения для баланса скорости и точности.

При использовании периферийных устройств, таких как портативные терминалы, можно выполнять облегчение моделей, жертвуя небольшой точностью ради работы в реальном времени. При экстремальных условиях освещения могут использоваться инфракрасные датчики или аналогичные устройства в сотрудничестве.

По мере развития видов растений и методов выращивания количество болезней растет. Необходимо принимать различные меры для борьбы с различными болезнями растений [117]. Поэтому классификация и точная идентификация болезней растений могут эффективно обеспечить здоровье культур. Ссылка [117] сочетает признаки, извлеченные с помощью глубокого обучения, с традиционными особенностями для многоклассовой классификации болезней листьев растений.

Для извлечения высокоуровневых скрытых признаков используется глубокая сепаративная свертка с меньшим числом параметров. Локальный двоичный паттерн (LBP) фиксирует локальную информацию о текстурах с изображений листьев. Эти два типа признаков напрямую объединяются и классифицируются с помощью классификатора Softmax.

Традиционные объекты сложно точно передать цель, а ручное извлечение требует много времени и труда. Поэтому в [108] предложена модель с двумя ветвями, объединяющая сверточные нейронные сети и визуальные трансформеры (ViT), отказываясь от традиционных признаков в пользу классификации болезней сельскохозяйственных культур. Поражения болезней культур сложны и требуют интеграции локальных и глобальных деталей с учётом контекстуальной информации.

В этом исследовании используется двухветвящий параллельный подход для выделения локальных и глобальных признаков и динамического объединения этих двух типов. Ветка Transformer использует сепарабельное самовнимание (SSA) для снижения вычислительных затрат. Эта динамически сращённая структура с двумя ветвями обеспечивает высокую точность и недорогую классификацию заболеваний сельскохозяйственных культур.

Борьба с вредителями — ещё одна мера для обеспечения урожайности. Ссылка [109] сосредоточена на обнаружении летающих насекомых и мелких мишеньевых насекомых. Это исследование позволяет избежать проблем с искажениями, вызванными напрямую масштабированием изображений традиционных моделей через механизм скользящего окна. Магистральная сеть внедряет EfficientNetV2-S для улучшения возможностей извлечения признаков.

Разделение задач классификации и локализации снижает конфликты задач. Эти индивидуальные улучшения значительно повышают точность обнаружения мелких целевых вредителей. Однако модель отсутствует сегментации экземпляров или возможностей обнаружения краёв, а густо распределённых вредителей легко ошибочно определить как отдельных целей. Обучение адаптации доменов для сред с тенями, отражениями или слабым освещением не проводилось. На практике его можно использовать с мобильными устройствами мониторинга, такими как дроны.

Аналогично, для обнаружения мелких мишенных вредителей ссылка [118] расширила область экспериментов на сложные полевые условия. Система оценила производительность шести вариантов YOLO в обнаружении вредителей малых целей, внедрила оптимизированную модель на мобильных устройствах с помощью сжатия и достигла эффективного вывода на мобильных устройствах. Ссылка [110] предложила модель глубокого обучения под названием ResNet-SA. Эта модель основана на остаточной сети (ResNet) и механизме самоконцентрации (SA), что повышает способность модели выявлять ключевые особенности.

Однако набор данных, использованный в (104), содержит только 3150 оригинальных изображений, которые были расширены с помощью базовых геометрических преобразований. Модель, предложенная в статье, достигает точности 99,8% на обучающем наборе. Однако в реальных условиях морфология, осанка и условия освещения вредителей могут быть более сложными.

Производительность модели на более сложных наборах данных или в реальных сельскохозяйственных условиях может снижаться. Кроме того, риск перенастройки из-за небольших наборов данных не следует игнорировать. Таким образом, высокая производительность (99,80%) тестового набора в этой статье всё ещё требует дополнительной проверки через более сложные реальные сценарии или кросс-датасетовую валидацию.

Ссылка [111] объединяет преимущества одноступенчатых и двухступенчатых сетей обнаружения для баланса точности и скорости. Одноступенчатая сеть использует Inception для многомасштабного извлечения объектов, улучшая обнаружение заблокированных целей. Двухступенчатая сеть основана на Faster-RCNN. Алгоритмы кластеризации оптимизируют размеры якорных коробок для повышения точности локализации.

Этот многомасштабный подход даёт модели явные преимущества в обнаружении вредителей разного размера. Набор данных использует перекрывающиеся аннотации, чтобы помочь модели изучать перекрывающиеся признаки и уменьшая количество пропущенных обнаружений. Метод хорошо работает даже в сложных условиях с скоплениями вредителей или закрытием листьев.

4.4. Обнаружение сорняков

Помимо вредителей и болезней, сорняки также являются одним из ключевых факторов, влияющих на урожайность в сельском хозяйстве. Широкое использование химических гербицидов создаёт значительную нагрузку на экологическую среду и подрывает устойчивость развития сельского хозяйства [15]. Точное применение гербицидов непосредственно на сорняки может значительно снизить использование химикатов, затраты на борьбу с сорняками и ущерб окружающей среде [119]. Некоторые сорняки внешне напоминают культуры, другие перекрываются и затеняют культуры (рисунок 8). Поэтому точное различие между культурами и сорняками крайне важно для точного применения гербицида. Краткое изложение соответствующих исследований приведено в таблице 4.

Рисунок 8. Изображения сорняков из набора данных CottonWeedDet12.

Таблица 4. Краткое изложение применения компьютерного зрения и глубокого обучения в обнаружении сорняков.

Reference	Target	Approach	Performance	Hardware Specifications	Number of Datasets
[119]	Targeted Weeds Control	VGG-16, AlexNet, GoogleNet	Precision: 98% Recall: 97% F1: 97%	NVIDIA GeForce GTX 1080 GPU (Nvidia, Santa Clara, CA, USA)	12443
[120]	Weed Detection	YOLOv5, HGNetV2, Scale Sequence Feature Fusion Module	mAP50: 94.2% Speed: 30.6 FPS	NVIDIA GeForce RTX 3090 (Nvidia, Santa Clara, CA, USA)	5270
[121]	Weed Detection	YOLOv5, BiFPN, Swin Transformer	mAP50: 90.8% Recall: 88.1% Precision: 64.4% Speed: 20.1 FPS	NVIDIA GTX 3080Ti (Nvidia, Santa Clara, CA, USA)	5000
[122]	Fields Weed Detection	YOLOv4, CSPDarknet53, CBAM	mAP50: 86.89% Recall: weed: 78.02% maize: 83.55%	NVIDIA Tesla V100 (Nvidia, Santa Clara, CA, USA)	3000
[123]	Weed Detection	YOLOv8, LSK, DySample	mAP50: 98.0% mAP50-95: 95.4% Speed: 118 FPS	NVIDIA GeForce RTX 3080 Ti (Nvidia, Santa Clara, CA, USA)	6496
[124]	Semantic Segmentation of Crops and Weeds	ResNet34, CWFDM	Precision: 98.4% mIoU: 0.9164 F1: 0.9556	NVIDIA Tesla P40 GPU (Nvidia, Santa Clara, CA, USA)	492
[125]	Weed Detection	YOLOv5s, CSPDarkNet53, SKAttention	CottonWeedDet12 mAP50: 95.3% mAP50-95: 89.5% Speed: 77 FPS	NVIDIA RTX A5000 (Nvidia, Santa Clara, CA, USA)	5648
[126]	Weed–Crop Segmentation	Dense-Inception, ASPP, CnSAU	mIoU Rice: 0.81 Weeds: 0.79 Others: 0.84	___	1092

Размеры целей для сорняков сильно различаются, и обнаружение мелких целей сложно. Такие факторы, как освещение и окклюзия в сложных сельскохозяйственных условиях, также влияют на эффективность обнаружения. Поэтому ссылка [120] предложила HAD-YOLO на основе YOLOv5 для решения задачи точного обнаружения сорняков на сельскохозяйственных землях. В данной статье используется лёгкая архитектура HGNetV2 в сочетании с глубокой сепарабельной свёрткой (DWConv) для снижения количества параметров и расширения возможностей извлечения признаков.

Модуль Scale Sequence Feature Fusion (SSFF) и модуль Triple Feature Encoding (TFE) расширяют способность модели обрабатывать признаки различных масштабов. Наконец, для повышения точности классификации и локализации используется интегрированный механизм динамического внимания (Dyhead). Эта стратегия многомасштабного термоядерного синтеза и легкого моделирования позволяет методу достигать высокой точности как в теплицах, так и на полевых наборах данных. Однако его производительность в условиях окклюзии средняя. Ссылка [121] также основывалась на модели YOLO5 для точного обнаружения сорняков на рапсовых полях.

Это исследование столкнулось с проблемой разного размера сорняков (особенно мелких мишеней), а также с проблемой различия сорняков от сходов рапса. В отличие от [120,121], в модель интегрирован модуль кодирования Swin Transformer для улучшения глобального извлечения признаков и снижения вычислительной сложности. В исследовании используется структура Bidirectional Feature Pyramid Network (BiFPN) для взвешенного многомасштабного слияния признаков. В процессе слияния признаков веса различных признаков назначаются механизмом внимания на основе нормализации (NAM), что позволяет адаптивно объединять многомасштабные признаки.

Внедрение Swin Transformer позволяет модулю лучше захватывать глобальную контекстную информацию, демонстрируя определённые улучшения в решении проблем окклюзии. Такой подход эффективно балансирует вычислительную эффективность с возможностями представления признаков. Сравнение этих двух методов показывает, что модель из [120] более легка и подходит для встроенного развертывания. Однако в его проектировании используется мало видов сорняков, и общение недостаточно.

Он подходит для задач по обнаружению одиночных сорняков в реальном времени. Ссылка [121] хорошо справляется с окклюзионными целями благодаря Swin Transformer. Он использует дополнение данных для эффективного решения проблемы дисбаланса данных. Он способен выявлять несколько видов сорняков и больше подходит для настоящих сельскохозяйственных угодий. Однако у него низкая производительность в реальном времени и высокая вычислительная сложность. Он подходит для обнаружения сорняков в сложных условиях с низкими требованиями к реальному времени.

В [127] модель нейронной сети BP построена с использованием множества признаков, таких как цвет, текстура и форма, в качестве входных данных для вывода обнаружения сорняков. Цветовые признаки извлекаются с помощью алгоритма Color Moments в сочетании с цветовыми пространствами RGB и HSV. Текстурные признаки извлекаются с помощью матрици сосуществования серого уровня (GLCM) и локального бинарного паттерна (LBP).

Особенности формы извлекаются с помощью инвариантных моментов Ху и геометрических параметров. После многофункционального комплементарного синтеза входные данные поступают в сеть обратного распространения для обнаружения сорняков в полях спаржи. Для метода синтеза признаков ссылка [124] использует многополярную взвешенную стратегию синтеза. Функции взвешиваются с помощью Softmax, чтобы выделить обрезку и удаление элементов, одновременно подавляя фоновые помехи.

Затем выполняется межслойное слияние признаков, объединяющее информацию о текстурах и форме из разных слоёв. Эта динамическая стратегия значительно повышает точность сегментации посевов и сорняков. Однако в наборе данных по рассаду риса модель ошибочно классифицирует тени посевов как сорняки. Это указывает на то, что модель недостаточно устойчива к переменам света и тени. Возможно, это связано с тем, что в обучающих данных мало теневых выборок или аннотации недостаточны. При испытаниях в реальных полевых условиях его характеристики могут снижаться из-за сложного освещения и других условий.

4.5. Реальные случаи применения

После предложения модельного алгоритма его следует применять к реальным сельскохозяйственным практикам для стимулирования экономического развития. Блок-схема для практического применения компьютерного зрения показана на рисунке 9. В этом процессе необходимо комплексно учитывать такие факторы, как начальные затраты, экологические ограничения и эффекты внедрения. Взяв в пример умную ферму (33 гектара) в Цзянсу, эта ферма внедряет совместную схему «инспекция дроном + точное опрыскивание земли» для достижения интеллектуального управления сорняками.

Ферма собирает спектральные особенности растительности с помощью мультиспектральной камеры и использует модель обнаружения для различия культур от 12 распространённых видов сорняков, направляя устройство с переменным распылением для целенаправленного применения. В конкретном процессе развертывания для крупномасштабного картирования распределения сорняков используются дрон Matrice 350 RTK и мультиспектральная камера. Наземное вычислительное оборудование использует промышленный компьютер с видеокартой NVIDIA RTX A5000 для обеспечения определения и принятия решений в реальном времени.

Для целенаправленного применения используется устройство с переменным распылением, управляемое интеллектуальными клапанами. Кроме того, существуют лицензии на модель обнаружения и платформу управления данными для реализации поддержки алгоритмов и хранения данных. Вышеуказанные данные составляют начальную стоимость фермы, которая составляет примерно 40 000 долларов США.

Рисунок 9. Блок-схема работы системы.

После внедрения оборудования внедрение интеллектуальных систем по-прежнему требует от фермеров непосредственного проведения операций. Фермерам требуется 1–2 дня обучения, чтобы овладеть взлётом и посадкой дронов, регулировкой параметров распыления (например, давлением распыления) и ежедневным обслуживанием оборудования. Им также нужны базовые навыки работы со смартфоном. Помимо операторов, должен быть технический персонал по обслуживанию.

Они отвечают за обновление моделей, устранение неполадок оборудования (например, калибровка камеры и обслуживание драйверов GPU), а также интерпретацию отчётов по данным. Среда сельскохозяйственных угодий отличается от тестовых сценариев — с сложными фоновыми условиями. Возьмём эту ферму в качестве примера: при сильном освещении мультиспектральные камеры подвержены интерференциям отражения, что снижает точность обнаружения.

Поэтому операции должны быть ограничены до 9 утра или после 17:00. Когда влажность воздуха превышает 85%, время работы батареи дронов сокращается, а датчики наземного оборудования подвержены повреждению влаги, что требует поддерживающих водонепроницаемых корпусов. После внедрения этих мер использование пестицидов снизилось с 180 л/га до 99 л/га, что на 45% меньше по сравнению с полевой обработкой.

Эффективность прополки улучшилась, урожайность культур увеличилась на 5%. Тем временем эффективность обнаружения сорняков значительно выросла: с 133 м²/ч (ручная проверка) до 5300 м²/ч (инспекция дронов). Традиционная химическая борьба с сорняками требует примерно 30 000 долларов США ежегодно на пестициды и затраты на труд. В умных сельскохозяйственных фермах сельскохозяйственное производство увеличивается на 5000 долларов США, при этом ежегодные расходы на обслуживание оборудования и пестициды составляют около 14 000 долларов США. По сравнению с традиционными методами, годовая прибыль составляет примерно 20 000 долларов США. Первоначальные инвестиции в оборудование могут быть возвращены в течение 2–3 лет.

Благодаря этому внедрению умного сельского хозяйства действительно может способствовать развитию сельскохозяйственной экономики. Для малых и средних хозяйств приоритет следует отдавать лёгким решениям с недорогим начальным оборудованием. Они могут реализовать базовые связи, такие как идентификация культур и мониторинг заболеваний.

С дальнейшим совершенствованием алгоритмических моделей сбор данных также станет упрощен. Это может дополнительно снизить сложность эксплуатации и затраты. Для крупных ферм возможно соответствующее увеличение первоначальных инвестиций. Они могут использовать аппаратные устройства, такие как датчики почвы, метеостанции и высокопроизводительные периферийные устройства.

В сочетании с облачными вычислительными платформами они могут осуществлять интеграцию данных и давать прогнозы. Поддерживающая инфраструктура должна включать высокоточные системы позиционирования для автоматического управления сельскохозяйственной техникой. Также необходимо обеспечить надёжность базовых станций 5G в этом месте для гарантии передачи больших данных.

Вызовы и путь вперёд

Традиционные методы компьютерного зрения для извлечения ручных признаков дорогостоящие и предоставляют ограниченную информацию, что затрудняет их применение в сложных сельскохозяйственных условиях. Глубокое обучение может автоматически изучивать информационно богатые функции из данных и адаптироваться к сложной сельскохозяйственной среде. По мере развития обеих технологий компьютерное зрение и глубокое обучение играют всё более важную роль в точном и умном земледелии, подобно глазам и мозгу.

В данной статье сосредоточена на процессе управления сельскохозяйственным ростом, рассматривая четыре аспекта: идентификацию и обнаружение культур, оценку и классификацию культур, мониторинг заболеваний и обнаружение сорняков. Хотя глубокое обучение и компьютерное зрение принесли революционный прогресс в аграрном интеллекте, они всё ещё сталкиваются с многочисленными техническими узкими местами и практическими препятствиями в реальных приложениях.

Текущая острая задача — достичь вывода в реальном времени в условиях с ограниченными ресурсами. Конечная экспериментальная цель — практическая реализация для удовлетворения потребностей сельскохозяйственного производства. В реальных ситуациях управления сельскохозяйственными угодьями нехватка высокопроизводительного оборудования является распространённой проблемой. Большинство вычислительных устройств имеют ограниченную вычислительную мощность, что затрудняет эффективную скорость вывода для моделей с крупными параметрами.

Некоторые сельскохозяйственные угодья страдают от плохого сигнального покрытия [115], что затрудняет выявление болезней сельскохозяйственных культур в реальном времени. Кроме того, оборудование, такое как опрыскиватели и прополки, не может эффективно поддерживать высокоскоростные модели вывода, что остаётся критически актуальной проблемой. Например, в ссылке [122] предлагаемая модель достигла 85,2% mAP50 во время тестирования. Однако при внедрении на мобильных устройствах этот показатель снизился до 67,4%.

Для решения этой проблемы всё больше исследований [86,87] внедряют более лёгкие модули для оптимизации моделей, улучшая их практическое применение. Кроме того, операторы поля являются основными пользователями, которым необходимо собирать и интерпретировать точные данные о сельскохозяйственных землях. Чрезмерно сложные операции повысят затраты на обучение фермеров. Поэтому крайне важно снижать параметры модели при сохранении точности и снижении сложности моделей. Обеспечение надежных возможностей вывода в реальных сельскохозяйственных условиях с ограниченными сетями и вычислительными ресурсами является ключевым направлением для будущих исследований.

После практического применения метода повышение его точности становится следующей серьёзной задачей. Проектирование универсально обобщаемых моделей для многомасштабных динамических целей, таким образом, представляет собой приоритетную техническую задачу. Для идентификации и обнаружения посевов разные формы культур делают обнаружение многомасштабных целей особенно затруднительными.

Система должна одновременно обнаруживать цели — от объектов миллиметрового масштаба (например, пыльца) до метровых структур (например, кроны плодовых деревьев), при этом учитывая морфологические изменения на протяжении всего цикла роста [91]. Культуры, такие как виноград, представляют дополнительные проблемы с серьёзным перекрытием и окклюзией [18]. При мониторинге заболеваний видимые повреждения поверхностей сельскохозяйственных культур значительно различаются по размеру.

Однако многие болезни вызывают крайне тонкие повреждения, которые трудно обнаружить на ранних стадиях. Слабые начальные симптомы и крошечные объекты обнаружения представляют собой серьёзные препятствия для наблюдения за заболеваниями. Исследования, такие как [108,117], направлены на выделение более продвинутых и разнообразных признаков. Эти высокоуровневые сращенные особенности обычно включают как глобальную, так и локальную информацию о культурах, что позволяет лучше идентифицировать заболевшие участки.

Для мониторинга вредителей малые размеры и высокая мобильность целевых насекомых создают серьёзные трудности с обнаружением. При обработке мелких объектов насекомых крайне важно избегать потери признаков, вызванных чрезмерными промежутками экстракции, которые могут привести к упущенным обнаружениям [109]. Ссылка [118] сравнила несколько моделей и расширила число узнаваемых категорий вредителей до девяти, однако универсальная обобщимость оставалась недостижимой.

Обнаружение сорняков сталкивается с похожими проблемами. Сорняки обычно мелкие, морфологически разнообразные и иногда напоминают культуры, что значительно усложняет точную идентификацию. Исследования, такие как [125], предлагают использовать многомасштабные механизмы свёртки или слоев внимания для улучшения выделения признаков и фокуса на сорняках, тем самым повышая точность обнаружения и обобщаемость.

Однако ошибочные идентификации всё равно встречаются в сильно окклюзивных средах, где не-сорняки растения могут быть неправильно классифицированы. Разработка моделей, способных работать с многомасштабными целями при одновременном улучшении обобщаемости, остаётся критически важной задачей.

Сельскохозяйственные поля сложны, и динамическое воздействие окружающей среды влияет на точность моделей. В реальных ситуациях сохраняются такие проблемы, как перекрытие целей, окклюзия и фоновые помехи. Эти факторы, а также вариации освещения, температуры, влажности и фоновых условий, влияют на получение входных данных для моделей.

В результате существуют расхождения между результатами практического применения и результатами лабораторных испытаний, что указывает на необходимость повышения адаптивности методов [15]. Исследования, такие как [14,86], усовершенствовали модели обнаружения для достижения большей точности в сложных условиях, хотя эти улучшения остаются специфичными для конкретных условий. Для укрепления устойчивости модели в сложных условиях исследования также могут быть сосредоточены на оптимизации входных данных.

Получение высококачественных изображений и создание комплексных наборов данных, охватывающих разнообразные реальные сценарии, представляют собой растущую тенденцию повышения точности моделей. Как обсуждалось во втором разделе, интеграция технологий, таких как камеры структурированного освещения и инфракрасная спектроскопия, может эффективно повысить качество данных. Однако использование такого высокопроизводительного оборудования значительно увеличивает затраты.

Для решения этой проблемы некоторые исследования [82] используют методы увеличения данных для повышения качества данных и точности тестирования без необходимости дорогого оборудования. Такой подход балансирует производительность и экономическую эффективность при сохранении надёжности модели в условиях переменного сельского хозяйства. В будущем следует продолжать изучать надёжные методы сбора и обработки данных, чтобы преодолеть разрыв между контролируемым тестированием и реальным внедрением.

Выводы

Технологии глубокого обучения и компьютерного зрения принесли революционные изменения в сельскохозяйственное производство. В данной статье рассматриваются и резюмируются соответствующие статьи за последнее десятилетие, сосредотачиваясь на четырёх аспектах: идентификации культур, оценке качества, мониторинге заболеваний и обнаружении сорняков. Раздел 2 классифицирует распространённые методы, используемые в компьютерном зрении для получения информации, а раздел 3 — широко используемые технологии глубокого обучения в сельском хозяйстве.

В ходе систематического обзора соответствующих исследований мы обнаружили, что эти технологии перешли из лаборатории в поле: модели на базе YOLO и Transformers достигают более 90% точности в распознавании культур в сложных условиях. Сочетание гиперспектральной визуализации и 3D-CNN поддерживает ошибки оценки сельскохозяйственной продукции в пределах 3%. Мультимодальное слияние данных значительно расширяет возможности диагностики заболеваний, а легкие модели обнаружения предоставляют решения в реальном времени для точного контроля сорняков.

Однако применение глубокого обучения и компьютерного зрения в сельском хозяйстве также сталкивается с множеством вызовов. Скудные и дорогие маркированные данные ограничивают возможности обобщения моделей, а раннее выявление вредителей и болезней размером в миллиметр остаётся технической задачей. Алгоритмы необходимо внедрять на реальные устройства, чтобы обеспечить практическую реализацию технологии, но инвестиции в оборудование приводят к чрезмерно высоким затратам. Кроме того, сложные реальные среды ограничивают эффективность алгоритмов и аппаратного обеспечения. Несмотря на эти трудности, эта область всё ещё обладает значительным потенциалом для будущего развития.

Во-первых, следует разработать специализированные крупномасштабные модели для сельского хозяйства, используя предварительное обучение с обширными наборами данных для расширения возможностей трансферного обучения и улучшения обобщения моделей.

Во-вторых, новые технологии сенсоров, методы глубокого обучения и сельское хозяйство должны быть более комплексно интегрированы, такие как технологии квантового сенсорного и нановизуализации, а также различные более эффективные механизмы внимания. Наконец, эксперименты и производство должны идти вместе.

Разрабатывая лёгкие модели для снижения барьеров применения, результаты исследований могут быть более широко приняты и применяться. Можно предвидеть, что когда технологическая зрелость соответствует промышленному спросу, сельское хозяйство вступит в эпоху умного сельского хозяйства, где весь процесс от посева до сбора урожая будет управляться автономным принятием решений. Этот скачок в эффективности производства является важной гарантией продовольственной безопасности и устойчивого развития — а также главным приоритетом для прогресса человечества в обществе.

Литература

Luo, X.; Liao, J.; Zang, Y.; Ou, Y.; Wang, P. Developing from mechanized to smart agricultural production in China. Strateg. Study Chin. Acad. Eng. 2022, 24, 46–54. [Google Scholar] [CrossRef]
Christiaensen, L.; Rutledge, Z.; Taylor, J.E. Viewpoint: The future of work in agri-food. Food Policy 2021, 99, 101963. [Google Scholar] [CrossRef]
Akbar, J.U.M.; Kamarulzaman, S.F.; Muzahid, A.J.M.; Rahman, M.A.; Uddin, M. A comprehensive review on deep learning assisted computer vision techniques for smart greenhouse agriculture. IEEE Access 2024, 12, 4485–4522. [Google Scholar] [CrossRef]
Saleem, M.H.; Potgieter, J.; Arif, K.M. Automation in agriculture by machine and deep learning techniques: A review of recent developments. Precis. Agric. 2021, 22, 2053–2091. [Google Scholar] [CrossRef]
Ranganathan, J.; Waite, R.; Searchinger, T.; Hanson, C. How to Sustainably Feed 10 Billion People by 2050, in 21 Charts; World Resources Institute: Washington, DC, USA, 2018; p. 5. [Google Scholar]
Dhanya, V.G.; Subeesh, A.; Kushwaha, N.L.; Vishwakarma, D.K.; Kumar, T.N.; Ritika, G.; Singh, A.N. Deep learning based computer vision approaches for smart agricultural applications. Artif. Intell. Agric. 2022, 6, 211–229. [Google Scholar] [CrossRef]
Tian, H.; Wang, T.; Liu, Y.; Qiao, X.; Li, Y. Computer vision technology in agricultural automation—A review. Inf. Process. Agric. 2020, 7, 1–19. [Google Scholar] [CrossRef]
Jin, Y.; Xia, X.; Gao, Q.; Yue, Y.; Lim, E.G.; Wong, P.; Ding, W.; Zhu, X. Deep learning in produce perception of harvesting robots: A comprehensive review. Appl. Soft Comput. 2025, 174, 112971. [Google Scholar] [CrossRef]
Ukwuoma, C.C.; Qin, Z.; Bin Heyat, M.B.; Ali, L.; Almaspoor, Z.; Monday, H.N. Recent advancements in fruit detection and classification using deep learning techniques. Math. Probl. Eng. 2022, 2022, 9210947. [Google Scholar] [CrossRef]
Zheng, W.; Lan, R.; Zhangzhong, L.; Yang, L.; Gao, L.; Yu, J. A Hybrid Approach for Soil Total Nitrogen Anomaly Detection Integrating Machine Learning and Spatial Statistics. Agronomy 2023, 13, 2669. [Google Scholar] [CrossRef]
Bünemann, E.K.; Bongiorno, G.; Bai, Z.; Creamer, R.E.; De Deyn, G.; De Goede, R.; Fleskens, L.; Geissen, V.; Kuyper, T.W.; Mäder, P.; et al. Soil quality–A critical review. Soil Biol. Biochem. 2018, 120, 105–125. [Google Scholar] [CrossRef]
Ma, Y.; Woolf, D.; Fan, M.; Qiao, L.; Li, R.; Lehmann, J. Global crop production increase by soil organic carbon. Nat. Geosci. 2023, 16, 1159–1165. [Google Scholar] [CrossRef]
Zhao, L.; Haque, S.M.; Wang, R. Automated seed identification with computer vision: Challenges and opportunities. Seed Sci. Technol. 2022, 50, 75–102. [Google Scholar] [CrossRef]
Ji, W.; Gao, X.; Xu, B.; Pan, Y.; Zhang, Z.; Zhao, D. Apple target recognition method in complex environment based on improved YOLOv4. J. Food Process Eng. 2021, 44, e13866. [Google Scholar] [CrossRef]
Wu, Z.; Chen, Y.; Zhao, B.; Kang, X.; Ding, Y. Review of weed detection methods based on computer vision. Sensors 2021, 21, 3647. [Google Scholar] [CrossRef]
Shoaib, M.; Sadeghi-Niaraki, A.; Ali, F.; Hussain, I.; Khalid, S. Leveraging deep learning for plant disease and pest detection: A comprehensive review and future directions. Front. Plant Sci. 2025, 16, 1538163. [Google Scholar] [CrossRef]
Xie, F.; Guo, Z.; Li, T.; Feng, Q.; Zhao, C. Dynamic Task Planning for Multi-Arm Harvesting Robots Under Multiple Constraints Using Deep Reinforcement Learning. Horticulturae 2025, 11, 88. [Google Scholar] [CrossRef]
Liu, J.; Liang, J.; Zhao, S.; Jiang, Y.; Wang, J.; Jin, Y. Design of a virtual multi-interaction operation system for hand–eye coordination of grape harvesting robots. Agronomy 2023, 13, 829. [Google Scholar] [CrossRef]
Luo, Y.; Wei, L.; Xu, L.; Zhang, Q.; Liu, J.; Cai, Q.; Zhang, W. Stereo-vision-based multi-crop harvesting edge detection for precise automatic steering of combine harvester. Biosyst. Eng. 2022, 215, 115–128. [Google Scholar] [CrossRef]
Wang, H.; Gu, J.; Wang, M. A review on the application of computer vision and machine learning in the tea industry. Front. Sustain. Food Syst. 2023, 7, 1172543. [Google Scholar] [CrossRef]
Kim, W.S.; Lee, D.H.; Kim, Y.J.; Kim, T.; Lee, W.S.; Choi, C.H. Stereo-vision-based crop height estimation for agricultural robots. Comput. Electron. Agric. 2021, 181, 105937. [Google Scholar] [CrossRef]
Chen, J.; Zhang, M.; Xu, B.; Sun, J.; Mujumdar, A.S. Artificial intelligence assisted technologies for controlling the drying of fruits and vegetables using physical fields: A review. Trends Food Sci. Technol. 2020, 105, 251–260. [Google Scholar] [CrossRef]
Xu, Q.; Cai, J.R.; Zhang, W.; Bai, J.W.; Li, Z.Q.; Tan, B.; Sun, L. Detection of citrus Huanglongbing (HLB) based on the HLB-induced leaf starch accumulation using a home-made computer vision system. Biosyst. Eng. 2022, 218, 163–174. [Google Scholar] [CrossRef]
Chen, J.; Lian, Y.; Zou, R.; Zhang, S.; Ning, X.; Han, M. Real-time grain breakage sensing for rice combine harvesters using machine vision technology. Int. J. Agric. Biol. Eng. 2020, 13, 194–199. [Google Scholar] [CrossRef]
Guo, J.; Zhang, K.; Adade, S.Y.S.S.; Lin, J.; Lin, H.; Chen, Q. Tea grading, blending, and matching based on computer vision and deep learning. J. Sci. Food Agric. 2025, 105, 3239–3251. [Google Scholar] [CrossRef]
Zhu, C.; Hao, S.; Liu, C.; Wang, Y.; Jia, X.; Xu, J.; Guo, S.; Huo, J.; Wang, W. An Efficient Computer Vision-Based Dual-Face Target Precision Variable Spraying Robotic System for Foliar Fertilisers. Agronomy 2024, 14, 2770. [Google Scholar] [CrossRef]
Huang, X.Y.; Pan, S.H.; Sun, Z.Y.; Ye, W.T.; Aheto, J.H. Evaluating quality of tomato during storage using fusion information of computer vision and electronic nose. J. Food Process Eng. 2018, 41, e12832. [Google Scholar] [CrossRef]
Tu, H.; Huang, D.; Huang, X.; Aheto, J.H.; Ren, Y.; Wang, Y.; Liu, J.; Niu, S.; Xu, M. Detection of browning of fresh-cut potato chips based on machine vision and electronic nose. J. Food Process Eng. 2021, 44, e13631. [Google Scholar]
Lei, L.; Yang, Q.; Yang, L.; Shen, T.; Wang, R.; Fu, C. Deep learning implementation of image segmentation in agricultural applications: A comprehensive review. Artif. Intell. Rev. 2024, 57, 149. [Google Scholar] [CrossRef]
Wang, J.; Gao, Z.; Zhang, Y.; Zhou, J.; Wu, J.; Li, P. Real-time detection and location of potted flowers based on a ZED camera and a YOLO V4-tiny deep learning algorithm. Horticulturae 2021, 8, 21. [Google Scholar] [CrossRef]
Badhan, S.; Desai, K.; Dsilva, M.; Sonkusare, R.; Weakey, S. Real-time weed detection using machine learning and stereo-vision. In Proceedings of the 2021 6th International Conference for Convergence in Technology (I2CT), Maharashtra, India, 2–4 April 2021; IEEE: New York, NY, USA, 2021; pp. 1–5. [Google Scholar]
Zheng, B.; Sun, G.; Meng, Z.; Nan, R. Vegetable size measurement based on stereo camera and keypoints detection. Sensors 2022, 22, 1617. [Google Scholar] [CrossRef]
Azizi, A.; Abbaspour-Gilandeh, Y.; Mesri-Gundoshmian, T.; Farooque, A.A.; Afzaal, H. Estimation of soil surface roughness using stereo vision approach. Sensors 2021, 21, 4386. [Google Scholar] [CrossRef] [PubMed]
Ruigrok, T.; van Henten, E.J.; Kootstra, G. Stereo Vision for Plant Detection in Dense Scenes. Sensors 2024, 24, 1942. [Google Scholar] [CrossRef] [PubMed]
Wang, T.; Chen, B.; Zhang, Z.; Li, H.; Zhang, M. Applications of machine vision in agricultural robot navigation: A review. Comput. Electron. Agric. 2022, 198, 107085. [Google Scholar] [CrossRef]
Pezzuolo, A.; Guarino, M.; Sartori, L.; Marinello, F. A feasibility study on the use of a structured light depth-camera for three-dimensional body measurements of dairy cows in free-stall barns. Sensors 2018, 18, 673. [Google Scholar] [CrossRef]
Nguyen, T.T.; Slaughter, D.C.; Max, N.; Maloof, J.N.; Sinha, N. Structured light-based 3D reconstruction system for plants. Sensors 2015, 15, 18587–18612. [Google Scholar] [CrossRef]
Atif, M.; Lee, S. Adaptive pattern resolution for structured light 3D camera system. In Proceedings of the 2018 IEEE SENSORS, New Delhi, India, 28–31 October 2018; IEEE: New York, NY, USA, 2018; pp. 1–4. [Google Scholar]
Fu, L.; Gao, F.; Wu, J.; Li, R.; Karkee, M.; Zhang, Q. Application of consumer RGB-D cameras for fruit detection and localization in field: A critical review. Comput. Electron. Agric. 2020, 177, 105687. [Google Scholar] [CrossRef]
Shuai, L.; Li, Z.; Chen, Z.; Luo, D.; Mu, J. A research review on deep learning combined with hyperspectral Imaging in multiscale agricultural sensing. Comput. Electron. Agric. 2024, 217, 108577. [Google Scholar] [CrossRef]
Tamayo-Monsalve, M.A.; Mercado-Ruiz, E.; Villa-Pulgarin, J.P.; Bravo-Ortiz, M.A.; Arteaga-Arteaga, H.B.; Mora-Rubio, A.; Alzate-Grisales, J.A.; Arias-Garzon, D.; Romero-Cano, V.; Orozco-Arias, S.; et al. Coffee maturity classification using convolutional neural networks and transfer learning. IEEE Access 2022, 10, 42971–42982. [Google Scholar] [CrossRef]
Zhou, X.; Sun, J.; Tian, Y.; Lu, B.; Hang, Y.; Chen, Q. Hyperspectral technique combined with deep learning algorithm for detection of compound heavy metals in lettuce. Food Chem. 2020, 321, 126503. [Google Scholar] [CrossRef]
Wei, L.; Yang, H.; Niu, Y.; Zhang, Y.; Xu, L.; Chai, X. Wheat biomass, yield, and straw-grain ratio estimation from multi-temporal UAV-based RGB and multispectral images. Biosyst. Eng. 2023, 234, 187–205. [Google Scholar] [CrossRef]
Li, J.; Luo, W.; Han, L.; Cai, Z.; Guo, Z. Two-wavelength image detection of early decayed oranges by coupling spectral classification with image processing. J. Food Compos. Anal. 2022, 111, 104642. [Google Scholar] [CrossRef]
Petersson, H.; Gustafsson, D.; Bergstrom, D. (December). Hyperspectral image analysis using deep learning—A review. In Proceedings of the 2016 Sixth International Conference on Image Processing Theory, Tools and Applications (IPTA), Oulu, Finland, 12–15 December 2016; IEEE: New York, NY, USA, 2016; pp. 1–6. [Google Scholar]
Shafique, A.; Siraj, M.; Cheng, B.; Alsaif, S.A.; Sadad, T. Hyperspectral Imaging and Advanced Vision Transformers for Identifying Pure and Pesticide-Coated Apples. IEEE Access 2025, 13, 66405–66419. [Google Scholar] [CrossRef]
Feng, H.; Chen, Y.; Song, J.; Lu, B.; Shu, C.; Qiao, J.; Liao, Y.; Yang, W. Maturity classification of rapeseed using hyperspectral image combined with machine learning. Plant Phenomics 2024, 6, 0139. [Google Scholar] [CrossRef]
Guo, Y.; Chen, S.; Li, X.; Cunha, M.; Jayavelu, S.; Cammarano, D.; Fu, Y. Machine learning-based approaches for predicting SPAD values of maize using multi-spectral images. Remote Sens. 2022, 14, 1337. [Google Scholar] [CrossRef]
Tian, S.; Lu, Q.; Wei, L. Multiscale superpixel-based fine classification of crops in the UAV-based hyperspectral imagery. Remote Sens. 2022, 14, 3292. [Google Scholar] [CrossRef]
Shen, T.; Zhou, X.; Shi, J.; Li, Z.; Huang, X.; Xu, Y.; Chen, W. Determination geographical origin and flavonoids content of goji berry using near-infrared spectroscopy and chemometrics. Food Anal. Methods 2016, 9, 68–79. [Google Scholar]
Zhang, H.; Jiang, H.; Liu, G.; Mei, C.; Huang, Y. Identification of Radix puerariae starch from different geographical origins by FT-NIR spectroscopy. Int. J. Food Prop. 2017, 20 (Suppl. 2), 1567–1577. [Google Scholar] [CrossRef]
Li, Y.; Zou, X.; Shen, T.; Shi, J.; Zhao, J.; Holmes, M. Determination of geographical origin and anthocyanin content of black goji berry (Lycium ruthenicum Murr.) using near-infrared spectroscopy and chemometrics. Food Anal. Methods 2017, 10, 1034–1044. [Google Scholar]
Lu, J.; Zhang, M.; Hu, Y.; Ma, W.; Tian, Z.; Liao, H.; Chen, J.; Yang, Y. From Outside to Inside: The Subtle Probing of Globular Fruits and Solanaceous Vegetables Using Machine Vision and Near-Infrared Methods. Agronomy 2024, 14, 2395. [Google Scholar] [CrossRef]
Patel, K.K.; Pathare, P.B. Principle and applications of near-infrared imaging for fruit quality assessment—An overview. Int. J. Food Sci. Technol. 2024, 59, 3436–3450. [Google Scholar] [CrossRef]
Yang, N.; Yuan, M.; Wang, P.; Zhang, R.; Sun, J.; Mao, H. Tea diseases detection based on fast infrared thermal image processing technology. J. Sci. Food Agric. 2019, 99, 3459–3466. [Google Scholar] [CrossRef]
Zhu, Y.; Fan, S.; Zuo, M.; Zhang, B.; Zhu, Q.; Kong, J. Discrimination of new and aged seeds based on on-line near-infrared spectroscopy technology combined with machine learning. Foods 2024, 13, 1570. [Google Scholar] [CrossRef] [PubMed]
Hao, Y.; Li, X.; Zhang, C.; Lei, Z. Online inspection of browning in yali pears using visible-near infrared spectroscopy and interpretable spectrogram-based CNN modeling. Biosensors 2023, 13, 203. [Google Scholar] [CrossRef] [PubMed]
Lu, H.; Wang, F.; Liu, X.; Wu, Y. Rapid assessment of tomato ripeness using visible/near-infrared spectroscopy and machine vision. Food Anal. Methods 2017, 10, 1721–1726. [Google Scholar] [CrossRef]
Türkler, L.; Akkan, T.; Akkan, L.Ö. Detection of Water Leakage in Drip Irrigation Systems Using Infrared Technique in Smart Agricultural Robots. Sensors 2023, 23, 9244. [Google Scholar] [CrossRef]
Zhou, X.; Zhao, C.; Sun, J.; Cao, Y.; Yao, K.; Xu, M. A deep learning method for predicting lead content in oilseed rape leaves using fluorescence hyperspectral imaging. Food Chem. 2023, 409, 135251. [Google Scholar] [CrossRef]
Sun, J.; He, X.; Ge, X.; Wu, X.; Shen, J.; Song, Y. Detection of key organs in tomato based on deep migration learning in a complex background. Agriculture 2018, 8, 196. [Google Scholar] [CrossRef]
You, J.; Li, D.; Wang, Z.; Chen, Q.; Ouyang, Q. Prediction and visualization of moisture content in Tencha drying processes by computer vision and deep learning. J. Sci. Food Agric. 2024, 104, 5486–5494. [Google Scholar] [CrossRef]
Manikandan, R.; Ranganathan, G.; Bindhu, V. Deep learning based IoT module for smart farming in different environmental conditions. Wirel. Pers. Commun. 2023, 128, 1715–1732. [Google Scholar] [CrossRef]
Li, H.; Luo, X.; Haruna, S.A.; Zareef, M.; Chen, Q.; Ding, Z.; Yan, Y. Au-Ag OHCs-based SERS sensor coupled with deep learning CNN algorithm to quantify thiram and pymetrozine in tea. Food Chem. 2023, 428, 136798. [Google Scholar] [CrossRef]
Cheng, X.; Zhang, Y.; Chen, Y.; Wu, Y.; Yue, Y. Pest identification via deep residual learning in complex background. Comput. Electron. Agric. 2017, 141, 351–356. [Google Scholar] [CrossRef]
Zhang, Q.; Liu, Y.; Gong, C.; Chen, Y.; Yu, H. Applications of deep learning for dense scenes analysis in agriculture: A review. Sensors 2020, 20, 1520. [Google Scholar] [CrossRef] [PubMed]
Mnih, V.; Heess, N.; Graves, A.; Kavukcuoglu, K. Recurrent models of visual attention. Adv. Neural Inf. Process. Syst. 2014, 27. [Google Scholar]
Hu, J.; Shen, L.; Sun, G. Squeeze-and-excitation networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 18–22 June 2018; pp. 7132–7141. [Google Scholar]
Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A.N.; Kaiser, Ł.; Polosukhin, I. Attention is all you need. Adv. Neural Inf. Process. Syst. 2017, 30. [Google Scholar]
Tao, K.; Wang, A.; Shen, Y.; Lu, Z.; Peng, F.; Wei, X. Peach flower density detection based on an improved cnn incorporating attention mechanism and multi-scale feature fusion. Horticulturae 2022, 8, 904. [Google Scholar] [CrossRef]
Zhao, S.; Peng, Y.; Liu, J.; Wu, S. Tomato leaf disease diagnosis based on improved convolution neural network by attention module. Agriculture 2021, 11, 651. [Google Scholar] [CrossRef]
Zuo, X.; Chu, J.; Shen, J.; Sun, J. Multi-granularity feature aggregation with self-attention and spatial reasoning for fine-grained crop disease classification. Agriculture 2022, 12, 1499. [Google Scholar] [CrossRef]
Dosovitskiy, A.; Beyer, L.; Kolesnikov, A.; Weissenborn, D.; Zhai, X.; Unterthiner, T.; Dehghani, M.; Minderer, M.; Heigold, G.; Gelly, S.; et al. An image is worth 16 × 16 words: Transformers for image recognition at scale. arXiv 2020, arXiv:2010.11929. [Google Scholar]
Bin, P.; Jing, B.; Wenjing, L.; Hu, Z.H.E.N.G.; Xiangyu, M.A. Survey on Visual Transformer for Image Classification. J. Front. Comput. Sci. Technol. 2024, 18, 320. [Google Scholar]
Zhu, W.; Sun, J.; Wang, S.; Shen, J.; Yang, K.; Zhou, X. Identifying field crop diseases using transformer-embedded convolutional neural network. Agriculture 2022, 12, 1083. [Google Scholar] [CrossRef]
De Silva, M.; Brown, D. Multispectral plant Disease Detection with Vision transformer–convolutional neural network hybrid approaches. Sensors 2023, 23, 8531. [Google Scholar] [CrossRef]
Luo, Z.; Yang, W.; Yuan, Y.; Gou, R.; Li, X. Semantic segmentation of agricultural images: A survey. Inf. Process. Agric. 2024, 11, 172–186. [Google Scholar] [CrossRef]
Redmon, J.; Divvala, S.; Girshick, R.; Farhadi, A. You only look once: Unified, real-time object detection. In Proceedings of the IEEE Conference on Computer Vision And Pattern Recognition 2016, Las Vegas, NV, USA, 27–30 June 2016; pp. 779–788. [Google Scholar]
Miao, Z.; Yu, X.; Li, N.; Zhang, Z.; He, C.; Li, Z.; Deng, C.; Sun, T. Efficient tomato harvesting robot based on image processing and deep learning. Precis. Agric. 2023, 24, 254–287. [Google Scholar] [CrossRef]
Zheng, Y.Y.; Kong, J.L.; Jin, X.B.; Wang, X.Y.; Su, T.L.; Zuo, M. CropDeep: The crop vision dataset for deep-learning-based classification and detection in precision agriculture. Sensors 2019, 19, 1058. [Google Scholar] [CrossRef] [PubMed]
Tian, Y.; Sun, J.; Zhou, X.; Yao, K.; Tang, N. Detection of soluble solid content in apples based on hyperspectral technology combined with deep learning algorithm. J. Food Process. Preserv. 2022, 46, e16414. [Google Scholar] [CrossRef]
Bhattarai, U.; Bhusal, S.; Zhang, Q.; Karkee, M. AgRegNet: A deep regression network for flower and fruit density estimation, localization, and counting in orchards. Comput. Electron. Agric. 2024, 227, 109534. [Google Scholar] [CrossRef]
Jiang, L.; Wang, Y.; Wu, C.; Wu, H. Fruit Distribution Density Estimation in YOLO-Detected Strawberry Images: A Kernel Density and Nearest Neighbor Analysis Approach. Agriculture 2024, 14, 1848. [Google Scholar] [CrossRef]
Hu, T.; Wang, W.; Gu, J.; Xia, Z.; Zhang, J.; Wang, B. Research on apple object detection and localization method based on improved YOLOX and RGB-D images. Agronomy 2023, 13, 1816. [Google Scholar] [CrossRef]
Liu, X.; Jia, W.; Ruan, C.; Zhao, D.; Gu, Y.; Chen, W. The recognition of apple fruits in plastic bags based on block classification. Precis. Agric. 2018, 19, 735–749. [Google Scholar] [CrossRef]
Zhang, Z.; Lu, Y.; Zhao, Y.; Pan, Q.; Jin, K.; Xu, G.; Hu, Y. Ts-yolo: An all-day and lightweight tea canopy shoots detection model. Agronomy 2023, 13, 1411. [Google Scholar] [CrossRef]
Li, A.; Wang, C.; Ji, T.; Wang, Q.; Zhang, T. D3-YOLOv10: Improved YOLOv10-Based Lightweight Tomato Detection Algorithm Under Facility Scenario. Agriculture 2024, 14, 2268. [Google Scholar] [CrossRef]
Zhang, F.; Chen, Z.; Ali, S.; Yang, N.; Fu, S.; Zhang, Y. Multi-class detection of cherry tomatoes using improved Yolov4-tiny model. Int. J. Agric. Biol. Eng. 2023, 16, 225–231. [Google Scholar]
Shi, Y.; Duan, Z.; Qing, S.; Zhao, L.; Wang, F.; Yuwen, X. YOLOV9S-Pear: A lightweight YOLOV9S-Based improved model for young Red Pear Small-Target recognition. Agronomy 2024, 14, 2086. [Google Scholar] [CrossRef]
Zhang, B.; Xia, Y.; Wang, R.; Wang, Y.; Yin, C.; Fu, M.; Fu, W. Recognition of mango and location of picking point on stem based on a multi-task CNN model named YOLOMS. Precis. Agric. 2024, 25, 1454–1476. [Google Scholar] [CrossRef]
Zhou, W.; Cui, Y.; Huang, H.; Huang, H.; Wang, C. A fast and data-efficient deep learning framework for multi-class fruit blossom detection. Comput. Electron. Agric. 2024, 217, 108592. [Google Scholar] [CrossRef]
Dai, J.S.; He, Z.Q. Real-Time Recognition and Localization of Kiwifruit Based on Improved YOLOv5s Algorithm. IEEE Access 2024, 12, 156261–156272. [Google Scholar] [CrossRef]
Yao, K.; Sun, J.; Zhou, X.; Nirere, A.; Tian, Y.; Wu, X. Nondestructive detection for egg freshness grade based on hyperspectral imaging technology. J. Food Process Eng. 2020, 43, e13422. [Google Scholar] [CrossRef]
Zhu, J.; Cai, J.; Sun, B.; Xu, Y.; Lu, F.; Ma, H. Inspection and classification of wheat quality using image processing. Qual. Assur. Saf. Crops Foods 2023, 15, 43–54. [Google Scholar] [CrossRef]
Gururaj, N.; Vinod, V.; Vijayakumar, K. Deep grading of mangoes using convolutional neural network and computer vision. Multimed. Tools Appl. 2023, 82, 39525–39550. [Google Scholar] [CrossRef]
Xu, B.; Cui, X.; Ji, W.; Yuan, H.; Wang, J. Apple grading method design and implementation for automatic grader based on improved YOLOv5. Agriculture 2023, 13, 124. [Google Scholar] [CrossRef]
Xia, Y.; Wang, Z.; Cao, Z.; Chen, Y.; Li, L.; Chen, L.; Zhang, S.; Wang, C.; Li, H.; Wang, B. Recognition Model for Tea Grading and Counting Based on the Improved YOLOv8n. Agronomy 2024, 14, 1251. [Google Scholar] [CrossRef]
Lu, M.; Jiang, S.; Wang, C.; Chen, D.; Chen, T.E. Tobacco leaf grading based on deep convolutional neural networks and machine vision. J. ASABE 2022, 65, 11–22. [Google Scholar] [CrossRef]
Lu, M.; Wang, C.; Wu, W.; Zhu, D.; Zhou, Q.; Wang, Z.; Chen, T.; Jiang, S.; Chen, D. Intelligent grading of tobacco leaves using an improved bilinear convolutional neural network. IEEE Access 2023, 11, 68153–68170. [Google Scholar] [CrossRef]
Ni, J.; Liu, B.; Li, J.; Gao, J.; Yang, H.; Han, Z. Detection of carrot quality using DCGAN and deep network with squeeze-and-excitation. Food Anal. Methods 2022, 15, 1432–1444. [Google Scholar] [CrossRef]
Zhang, Y.; Mohd Khairuddin, A.S.; Chuah, J.H.; Zhao, X.; Huang, J. An intelligent mangosteen grading system based on an improved convolutional neural network. Signal Image Video Process. 2024, 18, 8585–8595. [Google Scholar] [CrossRef]
Ismail, N.; Malik, O.A. Real-time visual inspection system for grading fruits using computer vision and deep learning techniques. Inf. Process. Agric. 2022, 9, 24–37. [Google Scholar]
Fan, S.; Li, J.; Zhang, Y.; Tian, X.; Wang, Q.; He, X.; Zhang, C.; Huang, W. On line detection of defective apples using computer vision system combined with deep learning methods. J. Food Eng. 2020, 286, 110102. [Google Scholar] [CrossRef]
Ji, W.; Wang, J.; Xu, B.; Zhang, T. Apple grading based on multi-dimensional view processing and deep learning. Foods 2023, 12, 2117. [Google Scholar] [CrossRef]
Jun, S.; Xin, Z.; Hanping, M.; Xiaohong, W.; Xiaodong, Z.; Hongyan, G. Identification of residue level in lettuce based on hyperspectra and chlorophyll fluorescence spectra. Int. J. Agric. Biol. Eng. 2016, 9, 231–239. [Google Scholar]
Upadhyay, A.; Chandel, N.S.; Singh, K.P.; Chakraborty, S.K.; Nandede, B.M.; Kumar, M.; Subeesh, A.; Upendar, K.; Salem, A.; Elbeltagi, A. Deep learning and computer vision in plant disease detection: A comprehensive review of techniques, models, and trends in precision agriculture. Artif. Intell. Rev. 2025, 58, 92. [Google Scholar] [CrossRef]
Duan, Y.; Han, W.; Guo, P.; Wei, X. YOLOv8-GDCI: Research on the Phytophthora Blight Detection Method of Different Parts of Chili Based on Improved YOLOv8 Model. Agronomy 2024, 14, 2734. [Google Scholar] [CrossRef]
Meng, Q.; Guo, J.; Zhang, H.; Zhou, Y.; Zhang, X. A dual-branch model combining convolution and vision transformer for crop disease classification. PLoS ONE 2025, 20, e0321753. [Google Scholar] [CrossRef] [PubMed]
Guo, Q.; Wang, C.; Xiao, D.; Huang, Q. Automatic monitoring of flying vegetable insect pests using an RGB camera and YOLO-SIP detector. Precis. Agric. 2023, 24, 436–457. [Google Scholar] [CrossRef]
Hassan, S.M.; Maji, A.K. Pest Identification based on fusion of Self-Attention with ResNet. IEEE Access 2024, 12, 6036–6050. [Google Scholar] [CrossRef]
Li, M.; Cheng, S.; Cui, J.; Li, C.; Li, Z.; Zhou, C.; Lv, C. High-performance plant pest and disease detection based on model ensemble with inception module and cluster algorithm. Plants 2023, 12, 200. [Google Scholar] [CrossRef]
Lamba, S.; Baliyan, A.; Kukreja, V. A novel GCL hybrid classification model for paddy diseases. Int. J. Inf. Technol. 2023, 15, 1127–1136. [Google Scholar] [CrossRef]
Yang, Y.; Xiao, Y.; Chen, Z.; Tang, D.; Li, Z.; Li, Z. FCBTYOLO: A lightweight and high-performance fine grain detection strategy for rice pests. IEEE Access 2023, 11, 101286–101295. [Google Scholar] [CrossRef]
Maruthai, S.; Selvanarayanan, R.; Thanarajan, T.; Rajendran, S. Hybrid vision GNNs based early detection and protection against pest diseases in coffee plants. Sci. Rep. 2025, 15, 11778. [Google Scholar] [CrossRef]
Yang, N.; Chang, K.; Dong, S.; Tang, J.; Wang, A.; Huang, R.; Jia, Y. Rapid image detection and recognition of rice false smut based on mobile smart devices with anti-light features from cloud database. Biosyst. Eng. 2022, 218, 229–244. [Google Scholar] [CrossRef]
Yang, N.; Qian, Y.; EL-Mesery, H.S.; Zhang, R.; Wang, A.; Tang, J. Rapid detection of rice disease using microscopy image identification based on the synergistic judgment of texture and shape features and decision tree–confusion matrix method. J. Sci. Food Agric. 2019, 99, 6589–6600. [Google Scholar] [CrossRef]
Hosny, K.M.; El-Hady, W.M.; Samy, F.M.; Vrochidou, E.; Papakostas, G.A. Multi-class classification of plant leaf diseases using feature fusion of deep convolutional neural network and local binary pattern. IEEE Access 2023, 11, 62307–62317. [Google Scholar] [CrossRef]
Khalid, S.; Oqaibi, H.M.; Aqib, M.; Hafeez, Y. Small pests detection in field crops using deep learning object detection. Sustainability 2023, 15, 6815. [Google Scholar] [CrossRef]
Liu, J.; Abbas, I.; Noor, R.S. Development of deep learning-based variable rate agrochemical spraying system for targeted weeds control in strawberry crop. Agronomy 2021, 11, 1480. [Google Scholar] [CrossRef]
Deng, L.; Miao, Z.; Zhao, X.; Yang, S.; Gao, Y.; Zhai, C.; Zhao, C. HAD-YOLO: An Accurate and Effective Weed Detection Model Based on Improved YOLOV5 Network. Agronomy 2025, 15, 57. [Google Scholar] [CrossRef]
Tao, T.; Wei, X. STBNA-YOLOv5: An Improved YOLOv5 Network for Weed Detection in Rapeseed Field. Agriculture 2024, 15, 22. [Google Scholar] [CrossRef]
Pei, H.; Sun, Y.; Huang, H.; Zhang, W.; Sheng, J.; Zhang, Z. Weed detection in maize fields by UAV images based on crop row preprocessing and improved YOLOv4. Agriculture 2022, 12, 975. [Google Scholar] [CrossRef]
Lu, Z.; Zhu, C.; Lu, L.; Yan, Y.; Jun, W.; Wei, X.; Ke, X.; Jun, T. Star-YOLO: A lightweight and efficient model for weed detection in cotton fields using advanced YOLOv8 improvements. Comput. Electron. Agric. 2025, 235, 110306. [Google Scholar] [CrossRef]
Janneh, L.L.; Zhang, Y.; Cui, Z.; Yang, Y. Multi-level feature re-weighted fusion for the semantic segmentation of crops and weeds. J. King Saud Univ. Comput. Inf. Sci. 2023, 35, 101545. [Google Scholar] [CrossRef]
Zhou, Q.; Li, H.; Cai, Z.; Zhong, Y.; Zhong, F.; Lin, X.; Wang, L. YOLO-ACE: Enhancing YOLO with Augmented Contextual Efficiency for Precision Cotton Weed Detection. Sensors 2025, 25, 1635. [Google Scholar] [CrossRef]
Khan, S.D.; Basalamah, S.; Lbath, A. Weed–Crop segmentation in drone images with a novel encoder–decoder framework enhanced via attention modules. Remote Sens. 2023, 15, 5615. [Google Scholar] [CrossRef]
Wang, Y.; Zhang, X.; Ma, G.; Du, X.; Shaheen, N.; Mao, H. Recognition of weeds at asparagus fields using multi-feature fusion and backpropagation neural network. Int. J. Agric. Biol. Eng. 2021, 14, 190–198. [Google Scholar] [CrossRef]

Авторы: Zhijie Cao, Shantong Sun, Xu Bao

ЗАКАЗАТЬ СИСТЕМУ

Введение

Компьютерное зрение