Машинное зрение и искусственный интеллект для фенотипирования растений

59
views

Искусственный интеллект и машинное обучение (ИИ/МО) могут быть использованы для автоматического анализа больших наборов изображений. Одним из ценных применений этого подхода является оценка данных о признаках растений, содержащихся в изображениях. В данной работе мы рассматриваем 39 статей, описывающих разработку и/или применение таких моделей для оценки признаков устьиц по микрофотографиям эпидермиса. Тем самым мы надеемся предоставить биологам растений базовые знания об ИИ/МО и обобщить текущие возможности и ограничения опубликованных инструментов.

Хотя большинство моделей демонстрируют производительность человеческого уровня для количественной оценки плотности устьиц (SD) со сверхчеловеческой скоростью, их применение зачастую ограничено в отношении фенотипического разнообразия, связанного с генетической, экологической или онтогенетической изменчивостью. Другие модели могут делать прогнозы в условиях большего фенотипического разнообразия и/или дополнительных признаков устьиц/эпидермиса, но требуют значительно больших временных затрат для получения достоверных данных. Мы обсуждаем проблемы и возможности, предоставляемые анализом компьютерного зрения с использованием ИИ/МО, и даем рекомендации по дальнейшей работе по ускоренному фенотипированию устьиц.

Введение

Искусственный интеллект и машинное обучение (ИИ/МО) можно использовать для улучшения многих инструментов, используемых в биологических исследованиях (Ван и др., 2023). Одно из ключевых применений ИИ/МО — это инструменты компьютерного зрения, которые могут извлекать визуальные характеристики из изображений для оценки характеристик растений (Гринблат и др., 2016Моханти и др., 2016).

Примеры таких инструментов варьируются в зависимости от масштаба биологической организации: от молекулярного до клеточного, тканевого, органного, растительного, полога и экосистемного (Бай и др., 2018Ли и др., 2019Чжоу и др., 2019Стрингер и др., 2021Отт и Лаутеншлагер, 2022 г.; Сонг и Ван, 2023). Устьица – это микроскопические поры в эпидермисе растения, которые регулируют обмен углекислым газом и водяным паром между атмосферой и внутренними тканями (Уиллмер и Фрикер, 1996).

Таким образом, устьица оказывают значительное влияние на потоки углерода и воды в растениях, экосистемах и системе Земли (Хетерингтон и Вудворд, 2003), а также регулирование эффективности использования воды (Лики и др., 2019), температура (Чавес и др., 2003), проникновение патогена (Мелотто и др., 2008) и поглощение загрязняющих веществ в воздухе (Эйнсворт и др., 2008). Устьичная проводимость описывает степень, в которой устьица позволяют газам проходить через эпидермис, и определяется строением устьичных комплексов и апертурой устьичных пор (Фрэнкс  и др., 2009).

Устьичная апертура сама по себе является функцией размера устьичного комплекса и степени, в которой замыкающие клетки, а у некоторых видов и вспомогательные клетки, изменяют форму, чтобы открыть пору (Franks и Farquhar, 2007). Мы определяем элементы устьичного паттерна как количество, размер и относительное расположение устьичных комплексов в эпидермисе. Существует значительный интерес к пониманию взаимосвязей между структурой и функцией устьиц. Благодаря своей функциональной значимости и удобному расположению на эпидермисе растения, устьица также являются модельными системами для изучения передачи сигналов и судьбы/развития клеток (Пиллиттери и Тори, 2012).

Устьица расположены с различной степенью регулярности, встроенные в матрикс эпидермальных клеток. Часто присутствует более пяти классов клеток, включая различные комбинации клеток-моста различной формы, шипиков, микроволосков, макроволосков, кремниевых клеток, бульбовидных клеток и устьичных комплексов.Фрилинг, 1992Эллисон  и др., 2020).

Устьица и другие типы эпидермальных клеток значительно различаются по количеству и внешнему виду как у разных видов, так и внутри них, а также в зависимости от изменений окружающей среды (Брейбрук и Кухлемейер, 2010Vőfély et al., 2019). Даже изучение части биологического разнообразия в структуре эпидермиса выявляет значительные различия в размерах, плотности, морфологии клеток и их распределении по эпидермису (Рис. 1).

В частности, замыкающие клетки, окружающие пору устьица у двудольных видов, имеют «почковидную» форму и иногда сопровождаются различным количеством и формой вспомогательных клеток (Рис. 1АБДФГ). Замыкающие клетки, окружающие пору устьица у однодольных видов, имеют «гантелеобразную» форму и всегда сопровождаются парой вспомогательных клеток (Рис. 1СИH).

Поскольку устьица состоят из нескольких структур, их называют «устьичным комплексом», чтобы точнее определить всю структуру, включая пору, пару замыкающих клеток и вспомогательные клетки (при их наличии). При ссылке на рассматриваемые статьи мы используем эту терминологию для разграничения таких показателей, как площадь устьичного комплекса (ПУК), а именно площади всей структуры, включая пору и замыкающие/вспомогательные клетки, от таких показателей, как размер пор, который не включает площадь клеток, окружающих поры.

Рис. 1. Биологическое разнообразие устьиц растений. (A)  Aglaia cucullata , тропические виды деревьев (перепечатано из Дей и др., 2023, с разрешения Elsevier). (B)  Arabidopsis thaliana  (перепечатано из Ли и др., 2022, с разрешения Американского общества биологов растений). (C)  Zea  mays (Аоно и др., 2021). (D) Соевые бобы (Султана и др., 202 ). (E) Масличная пальма (Квонг и др., 2021). (F) Киноа (Раззак и др., 2021). (G) Пример открытого устьичного комплекса двудольных растений. (H) Пример открытого устьичного комплекса однодольных растений. gc = замыкающая клетка (зеленая), sc = вспомогательная клетка (синяя), a = отверстие.

Целью данной статьи является обзор последних достижений в области фенотипирования устьичных паттернов с акцентом на применение машинного обучения для автоматизации оценки признаков устьичного паттерна по микроскопическим изображениям. Эта область исследований возникла и быстро развивалась в течение последнего десятилетия.

Это важное достижение, поскольку широкий спектр биологических вопросов может быть решен более эффективно, если мы можем быстро и точно оценить плотность, размер, форму и апертуру устьиц. Для поиска релевантной литературы в онлайн-инструменте Web of Science™ были использованы поисковые запросы «стома* или замыкающая клетка» и «машинное обучение* или искусственный интеллект».

Первоначальные результаты поиска, а также соответствующие статьи, которые либо цитировали эти исследования, либо были цитированы ими, позволили сформировать набор из 39 статей для обзора. Сюда входят работы по широкому кругу видов (Рис. 2А), подходы к сбору данных (Рис. 2БC) и черты (Рис. 2D).

В этом обзоре обсуждается фенотипирование устьичных паттернов с точки зрения: (i) методов отбора проб тканей, микроскопии и анализа изображений; (ii) базового материала по искусственному интеллекту и машинному обучению; (iii) биологического контекста современных инструментов машинного обучения; (iv) недавно разработанных инструментов компьютерного зрения; (v) общих проблем, связанных с инструментами на основе машинного обучения; и (vi) будущих направлений.

 

Рис. 2. Краткое изложение 39 рассмотренных статей. (A) Гистограмма 56 уникальных видов, использованных для обучения модели. Число в скобках представляет количество видов в этой категории. (B) Круговая диаграмма методов выборки. Число в скобках представляет количество статей в этой категории. (C) Круговая диаграмма методов визуализации. Число в скобках представляет количество статей в этой категории. (D) Гистограмма выходных данных признака. SD — плотность устьиц; SCL — длина устьичного комплекса; SCW — ширина устьичного комплекса; SCA — площадь устьичного комплекса; SI — устьичный индекс; PCD — плотность клеток мостовой; PCA — площадь клеток мостовой; PCL — длина клеток мостовой; PCW — ширина клеток мостовой.

Методы отбора проб тканей, микроскопии и анализа изображений устьичного рисунка

Отбор образцов тканей

Количественная оценка устьичных признаков может быть трудоёмкой и сложной в крупных экспериментальных масштабах. Наиболее распространённый метод подготовки образцов, использованный в 17 рассмотренных работах, включает в себя снятие отпечатков с поверхности эпидермиса методом снятия лака, снятия клея или другим способом (Рис. 2B).

При использовании этой методики обычно фиксируется и анализируется обратная сторона поверхности листа в момент нанесения оттискного материала. Этот метод неразрушающий и позволяет получать копии эпидермиса, которые можно легко хранить в течение длительного времени. Однако этот метод требует аккуратного ручного обращения и подвержен ошибкам при нанесении или удалении оттискного материала, что может снизить качество изображения (Джаякоди и др., 2017Коста  и др., 2021; Дей и др., 2023).

Этот метод также может быть несовместим с топографией эпидермиса некоторых видов. В частности, у голосеменных растений устьица часто погружены в углубления, напоминающие крипты, которые могут не захватываться лаковыми корками (Феттер и др., 2019), а некоторые виды имеют особенно волосатые листья, которые скрывают нижележащие интересующие клетки (Meeus  et al., 2020).

Лишь немного реже образцы целых листьев визуализируются напрямую, либо после отделения от растения, либо еще прикрепленными. Избегая времени, потраченного на подготовку ткани или образца, можно сделать эти методы быстрым выбором. Визуализация таких образцов может столкнуться с теми же трудностями, что и получение отпечатков, когда структуры скрыты от обзора волосками, но предварительная обработка для удаления волосков может позволить получить изображение.

Другой метод — эпидермальное снятие, при котором одна сторона эпидермиса и мезофилла осторожно оттягивается или соскабливается, чтобы оставить изолированный эпидермис для визуализации. Наконец, в некоторых работах используется просветляющая обработка, чтобы сделать образец листа прозрачным, но полная обработка образцов может занять от нескольких часов до нескольких дней (Султана  и др., 2021).

«Образец очищенного листа» представляет собой отдельную категорию от «образца листа» как по времени подготовки, так и по совместимости с методами визуализации. В целом, эти распространённые методы отбора проб практически не изменились за более чем столетие (Бискоу, 1872).

Методы микроскопии

Различные формы световой микроскопии использовались чаще (42 исследования), чем электронная микроскопия (7 исследований) для получения изображений устьиц и окружающего эпидермиса (Рис. 2C). Световая микроскопия включала методы светлопольной, конфокальной, флуоресцентной, темнопольной и дифференциально – интерференционной контрастной микроскопии (ДИК).

Если конкретный метод визуализации был неясен, но был указан световой микроскоп, статьи относились к категории «световой (не указан)». Световые микроскопы, способные получать изображения в светлопольном режиме, могут быть достаточны для получения изображений лаковых отслоек, эпидермальных отслоек или образцов очищенных листьев, но их возможности ограничены при непосредственном получении изображений образцов листьев.

Оптическая томография — это подвид конфокальной микроскопии, который недавно был представлен как метод быстрого сканирования поверхности листа без необходимости какой-либо подготовки образца, кроме прикрепления образца к предметному стеклу микроскопа с помощью двустороннего скотча (Хаус и др., 2015Фергюсон и др., 20212024Пракаш и др., 2021Сье и др., 2021Ланн и др., 2024).

Несмотря на относительно высокую стоимость прибора, данная методология является многообещающей, поскольку совместима с самым быстрым методом отбора проб (т.е. прямым измерением листьев без необходимости длительной подготовки тканей), дешева в эксплуатации, быстра и не разрушает образец, полученный в результате исследования. СЭМ ещё дороже с точки зрения стоимости оборудования, но обеспечивает более высокое разрешение, чем все методы световой микроскопии, когда требуется точность.

Методы анализа изображений

Фенотипирование признаков устьиц по микрофотографиям исторически в значительной степени основывалось на ручном сборе данных. Ручное измерение изображений для количественной оценки плотности, апертуры и размера устьиц с помощью программного обеспечения, такого как ImageJ, оставалось преобладающим методом, даже несмотря на то, что классические подходы к компьютерному зрению без машинного обучения сделали возможными полуавтоматические измерения (Карабурниотис, 2001Саньял и др., 2008Laga et al., 2014).

Значение координат для каждого устьица на изображении позволит провести подсчёт для определения плотности устьиц и информации о их положении для оценки пространственного расположения. Во многих случаях это оказалось трудоёмкой, но выполнимой задачей. Однако требуется дополнительная ручная аннотация для оценки длины, ширины и площади всего устьичного комплекса (SCL, SCW и SCA) или отдельных замыкающих/дочерних клеток (Рис. 2) добавляет трудозатраты, что нецелесообразно для большого количества образцов (Xie et al. , 2021 ).

Оценка размера клеток эпидермиса добавляет дополнительный порядок работы, делая автоматизированный анализ необходимым практически во всех случаях (Се  и др., 2021). Как описано ниже, появление методов искусственного интеллекта и машинного обучения имело преобразующее значение, позволяя автоматизировать анализ больших наборов изображений.

Учебник по ИИ/МО

Здесь мы стремимся познакомить биологов с методами ИИ/МО в целом, прежде чем обсуждать конкретные методы ИИ/МО, применяемые для автоматизации измерения характеристик устьиц на микрофотографиях эпидермиса. ИИ относится к процессу передачи машинам аспектов человеческого интеллекта, чтобы они могли имитировать человеческое поведение для решения задач и принятия решений. МО — это подраздел ИИ, в котором процесс принятия решений представлен в виде статистических функций, а обучение процессу принятия решений осуществляется посредством обучения на реальных данных, также известного как «земная истина» (ground-truth).Шалев-Шварц и Бен-Дэвид, 2014Goodfellow  et al., 2016).

Алгоритмы МО можно в целом разделить на алгоритмы обучения с учителем и без учителя в зависимости от того, обучаются ли они на маркированных или необработанных данных соответственно. Примером маркированного изображения может служить необработанное изображение эпидермиса листа, на котором периметры всех устьичных комплексов были нарисованы человеком. В рассмотренных здесь работах рассматриваются исключительно алгоритмы с учителем, поскольку, насколько нам известно, неконтролируемых моделей для фенотипирования устьиц пока не существует.

Этот учебник проходит через: (i) описание моделей сверточных нейронных сетей как инструментов анализа изображений; (ii) классификацию, обнаружение объектов, семантическую сегментацию и сегментацию экземпляров как отдельные задачи анализа изображений; (iii) этапы обучения, проверки и тестирования моделей; (iv) различные стратегии обучения модели (обучение с нуля и трансферное обучение); и, наконец, (v) метрики, используемые для оценки производительности модели.

Нейронные сети

Использование МО для определения признаков устьиц часто включает моделирование нейронных сетей (NN). NN состоят из взаимосвязанных слоев узлов (нейронов), вдохновленных структурой и функциями человеческого мозга, что позволяет им обучаться распознавать закономерности в данных. Они используются для различных задач, включая классификацию, регрессию и кластеризацию.

Однако специализированный тип NN прямого распространения, известный как сверточные нейронные сети (CNN), оказался особенно успешным в обработке и анализе данных, подобных сетке, таких как изображения для анализа устьиц. CNN принимает изображение в качестве входных данных, обрабатывает его через различные слои и выдает прогноз, соответствующий данным, указанным в обучающем наборе.

CNN стали основополагающими компонентами для решения задач компьютерного зрения, таких как обнаружение объектов и сегментация (т. е. разбиение изображения на дискретные группы клеток или классы клеток). Они состоят из нескольких слоев, каждый из которых имеет обучаемые параметры, включая следующие.

  1. Свёрточные слои, использующие фильтры и ядра для создания более абстрактного представления посредством карты признаков. Фильтр перемещается по изображению подобно сканеру и создаёт карту признаков (то есть содержательное описание, связывающее входные и выходные прогнозы). Это ключевой и отличительный компонент сверточных нейронных сетей (CNN). Эта операция играет ключевую роль в способности сети автоматически извлекать из изображений пространственные иерархии и признаки, такие как контуры, текстуры и формы.

  2. Объединение слоёв позволяет уменьшить размерность карт признаков путём суммирования наличия признаков в отдельных фрагментах карты признаков. Это снижает размерность данных и вычислительные затраты.

  3. Полностью связанные слои связывают нейроны одного слоя с нейронами другого слоя. Они принимают выходные данные других слоёв и классифицируют пиксели, вычисляя оценки для каждой метки класса.

Обучение сверточной нейронной сети с учителем включает в себя использование размеченного набора данных для настройки параметров сети (весов и смещений) посредством процесса, называемого обратным распространением ошибки. Обучающие данные используются для вычисления «потерь», измеряющей разницу между прогнозируемым результатом и истинными метками.

Потери минимизируются путём обновления параметров с помощью алгоритмов оптимизации. Кроме того, в процессе обучения используются проверочные данные для настройки гиперпараметров, таких как скорость обучения, и мониторинга эффективности модели. Это помогает предотвратить переобучение и обеспечивает хорошее обобщение модели на ранее неизвестные данные.

Благодаря итеративной настройке параметров и гиперпараметров, сверточные нейронные сети становятся высокоэффективными для точного анализа и интерпретации изображений. Глубокое обучение (ГО) — это раздел МО, в котором используются особенно глубокие и большие НС.

Основная причина успеха методов обучения на основе нейронных сетей заключается в способности обучаться непосредственно на данных. После анализа больших объёмов данных обученные модели могут автоматически выявлять важные особенности/аспекты данных, что может помочь в формулировании новых гипотез и выявлении общих закономерностей, которые можно распространить на более крупные наборы данных, что в противном случае было бы нереально сделать вручную.

Классификация, обнаружение объектов, семантическая сегментация и сегментация экземпляров

Четыре распространённые задачи машинного обучения для анализа изображений — это классификация, обнаружение объектов, семантическая сегментация и сегментация экземпляров. В масштабах многих биологических экспериментов выполнение любой из этих задач вручную может занять значительное время.

Классификация описывает процесс группировки изображений или их частей в набор классов, определяемых пользователем. Одному изображению может быть присвоена как одна, так и несколько меток класса, в зависимости от решаемой задачи. В исследованиях устьиц классификация используется для идентификации видов растений на основе изображения эпидермиса листа (Андаяни  и др., 2020Дей и др., 2023), чтобы определить области обрезанного изображения, содержащие или не содержащие устьица (Aono et al., 2021), или классифицировать устьица, идентифицированные путем обнаружения объекта, как находящиеся в состоянии открытых или закрытых пор (Раззак  и др., 2021Ли и др. , 2023).

Функция обнаружения объектов идентифицирует уникальные экземпляры объекта и помещает вокруг каждого экземпляра ограничивающую рамку (минимальный прямоугольник, необходимый для размещения объекта). Каждому экземпляру присваивается уникальный идентификатор под соответствующей меткой класса. Семантическая сегментация включает группировку отдельных пикселей в определяемые пользователем классы, но, что особенно важно, сама по себе семантическая сегментация не различает любые два уникальных экземпляра этих объектов внутри класса.

Сегментацию экземпляров можно концептуализировать как комбинацию обнаружения объектов и семантической сегментации, идентифицирующую все пиксели, принадлежащие уникальным экземплярам объекта на изображении. Сегментация экземпляров устьиц может быть достигнута путем семантической сегментации всего изображения с последующим этапом постобработки для маркировки непрерывных компонентов уникальными идентификаторами экземпляров. Этот подход относительно прост, поскольку устьица очень редко располагаются непосредственно рядом друг с другом.

Сегментация экземпляров также может быть достигнута путем семантической сегментации объектов в ограничивающих рамках, определенных обнаружением объектов. Такая форма сегментации экземпляров, вероятно, менее подвержена ошибкам, чем использование выходных данных семантической сегментации для идентификации экземпляров путем подсчета несоединяющихся областей. Тактики обнаружения объектов, семантической сегментации и сегментации экземпляров используются различными способами в рассмотренных работах для оценки количественных признаков, таких как размер или количество структур.

Обучение, валидация и тестирование моделей машинного обучения

Упрощенная схема процесса разработки модели машинного обучения для обнаружения объектов представлена ​​на рисунке. Рис. 3. После сбора образцов и получения изображений весь набор данных обычно делится на три поднабора данных, а именно: «набор данных для обучения», «набор данных для проверки» и «тестовый набор данных» (розовые, синие и желтые квадраты соответственно на Рис. 3).

Разделение изображений на подмножества чаще всего осуществляется методом случайной выборки. Однако, если имеется предварительная информация о распределении интересующего признака, можно использовать структурированную выборку, чтобы гарантировать одинаковое распределение данных по всем трём подмножествам данных. Все три набора данных требуют измерений интересующего признака человеком.

Несмотря на противоречивость данных в литературе, в данном обзоре «набор данных для обучения» будет относиться к изображениям, используемым в процессе обучения для первоначального изучения интересующих признаков. «набор данных для проверки» будет относиться к изображениям, используемым в процессе обучения для оценки эффективности модели на последовательных итерациях. В процессе обучения модель сначала обучается на обучающем наборе данных, а затем корректирует параметры в соответствии с оценкой на проверочном наборе данных для улучшения производительности на обучающем наборе данных, не просто запоминая его характеристики.

Обучение — это итеративный процесс, состоящий из ряда эпох, где одна эпоха включает прогнозирование, оценку и корректировку параметров (серый прямоугольник на Рис. 3). Обучение завершается, когда потери (расхождение между прогнозами и истинными данными) из обучающего и проверочного наборов данных сходятся, что указывает на оптимальные параметры модели. Обучающий набор данных всегда больше проверочного, но соотношение изображений между ними значительно варьируется от 2:1 до 8:1 (обучение:проверка) в рассмотренных статьях.

«Тестовый набор данных» будет относиться к изображениям, не используемым в процессе обучения (т. е. новым изображениям, не содержащимся в обучающем или проверочном наборах данных), на которых выбранная окончательная модель тестируется путем сравнения с ручными данными. Теоретически все три этих набора данных демонстрируют одинаковое распределение данных, но обычно модель развертывают на дополнительных тестовых наборах данных, чтобы оценить производительность модели на изображениях, которые все больше отличаются от изображений в обучающем и проверочном наборах данных. Важно отметить, что в некоторых рассмотренных статьях нет четкого различия между «тестовым набором данных» и «проверочным набором данных».

 

Рис. 3. Рабочий процесс, иллюстрирующий процесс построения модели машинного обучения. Образцы растительного материала отбираются и визуализируются с помощью микроскопа. Изображения делятся на обучающий, проверочный и тестовый наборы данных. Данные для подсчёта наземных данных генерируются вручную для всех трёх наборов данных. Для повышения качества изображений ко всем изображениям применяется дополнительная фильтрация, а для обогащения обучающего набора данных может использоваться аугментация данных. Обучение включает в себя цикл модели, составление прогнозов на основе обучающего и проверочного наборов данных, оценку эффективности путём сравнения с проверочными данными и корректировку модели на основе результатов, полученных только из проверочного набора данных, что составляет одну эпоху. Обучение завершается после нескольких эпох, и окончательная модель может быть применена к тестовому набору данных и оценена на предмет эффективности.

Дополнение данных

Аугментация данных описывает процесс применения преобразований к обучающим данным модели для увеличения размера обучающего набора данных и повышения эффективности визуального разнообразия. В разделе описаны две категории аугментации данных. Casado-García  et al.  (2019) . Методы, инвариантные к положению, включают изменение цвета, яркости или контрастности обучающих изображений и могут повторно использовать существующие ручные данные наземной истины как для классов, так и для местоположений/границ объектов.

Методы аугментации данных, инвариантных к положению, такие как повороты, кадрирования и отражения, могут использовать существующие ручные данные классов наземной истины, но требуют, чтобы любые ручные данные наземной истины, описывающие местоположения/границы объектов, были скорректированы для отражения нового положения объекта на изображении.

В шестнадцати рассмотренных работах аугментация данных используется для улучшения обучающих наборов данных, и хорошо представлены как методы, инвариантные к положению, так и инвариантные к положению (Дополнительная таблица S1). Чаще всего исследователи применяют повороты, кадрирования, размытие или изменение цвета, но методы аугментации данных не всегда конкретно описываются.

Стратегии обучения моделям

При обучении на визуальных данных используются две основные стратегии обучения: обучение с нуля и трансферное обучение, включая тонкую настройку. Обучение с нуля включает в себя инициализацию нейронной сети случайными весами и её обучение на большом размеченном наборе данных, что позволяет сети изучать признаки непосредственно из данных.

В качестве альтернативы, трансферное обучение использует предварительно обученную модель, которая уже изучила полезные признаки из большого набора данных, и адаптирует её к новой задаче. Тонкая настройка идёт ещё дальше, обучая предварительно обученную модель на новом наборе данных, немного обновляя некоторые или все параметры её слоёв (то есть веса) для лучшего учёта специфических характеристик новых данных. Эти стратегии помогают эффективно использовать вычислительные ресурсы и повышают производительность модели, особенно при работе с ограниченным количеством размеченных данных.

Показатели производительности

Существует ряд метрик, которые можно использовать для оценки эффективности модели. Важно отметить, что эти метрики имеют весьма специфичные определения в контексте производительности машинного обучения. Некоторые часто используемые метрики для обнаружения объектов включают точность, полноту и оценку F1, которые визуально представлены на Рис. 4.

Для определения этих метрик производительности используются следующие термины: TP = истинно положительный результат, TN = истинно отрицательный результат, FP = ложноположительный результат и FN = ложноотрицательный результат. Значения этих метрик варьируются от 0 до 1, где значение, близкое к 1, соответствует отличной производительности, а значение, близкое к 100%, выражается в процентах.

Рис. 4. Полнота и точность обнаружения объектов. Серые овалы указывают на наличие единственного устьица, идентифицированного в данных наземного тестирования. Желтые круги указывают на прогнозы модели относительно расположения устьиц. Синие прямоугольники представляют ложноположительные прогнозы, когда есть прогноз модели без объекта наземного тестирования. Розовые прямоугольники представляют ложноотрицательные прогнозы, когда нет прогноза модели на объекте наземного тестирования. Устьица с желтыми кругами и без прямоугольников указывают на истинноположительные результаты. (A) Пример работы модели с высокой точностью и высокой полнотой. (B) Пример работы модели с низкой точностью и высокой полнотой. (C) Пример работы модели с высокой точностью и низкой полнотой. (D) Пример работы модели с низкой точностью и низкой полнотой.

Точность, полнота и оценка F1

Точность определяется долей правильно идентифицированных объектов, при этом высокое значение указывает на небольшое количество ложноположительных результатов. Она рассчитывается следующим образом:

Оценка F1 объединяет точность и полноту для присвоения итогового значения производительности, учитывающего как ложноположительные, так и ложноотрицательные результаты.

Средняя точность (AP) — еще один часто используемый показатель, который описывает площадь под кривой «точность-полнота» и, таким образом, отражает эффективность относительно как ложноположительных, так и ложноотрицательных результатов.

Точность

Точность определяется частотой верных прогнозов модели, а также тем, насколько часто она учитывает как ложноположительные, так и ложноотрицательные результаты. Она определяется как:

Пересечение над объединением

Пересечение по объединению (IoU) оценивает перекрытие между ограничивающими прямоугольниками предсказанного результата и истинного результата. Это даёт представление о том, является ли обнаружение достоверным (истинно положительным) или нет (ложно положительным). Это также помогает количественно оценить согласованность и смещение между предсказанными и истинным результатом.

Средняя точность

Набор данных, содержащий классы данных, где один класс составляет подавляющее большинство (т.е. >80–90%) всего набора данных, называется несбалансированным. В этом случае отнесение всех прогнозов к одному классу большинства также приведёт к высокому значению IoU. Это было бы обманчивым количественным показателем.

Средняя точность (mAP) представляет собой агрегированную меру эффективности модели по всем классам объектов. Расчёт этой метрики включает в себя вычисление средней точности путём определения площади под кривой «точность–полнота» для каждого класса. В конечном итоге получается среднее значение AP по всем классам.

Хотя наиболее часто используемые метрики производительности определены выше, также представлены и другие распространённые статистические данные, такие как частота ошибок и коэффициент корреляции. Каждая метрика производительности отражает различные возможности любой модели, и представление только одной доступной метрики может скрыть нюансы её производительности.

Модель с чрезвычайно высокой точностью может редко идентифицировать неустьичный объект как устьица; однако без точности или полноты мы ничего не знаем о том, как часто она пропускает устьица (Рис. 4C ). Модель с идеальной полнотой, но низкой точностью может никогда не пропускать устьица, но ложные срабатывания означают, что полученная плотность устьиц (SD) будет значительно завышена (Рис. 4B).

Кроме того, некоторые из этих значений подходят только для определённых задач. Например, эффективность обнаружения объектов, таких как устьица или клетки мостовой, может быть количественно оценена любой метрикой, использующей ложные/истинные положительные/отрицательные значения, в то время как эффективность семантической сегментации длины пор не может использовать эти значения и часто лучше описывается коэффициентом детерминации (R2) и частотой ошибок между значением модели и истинным значением.

Важно учитывать, что даже одна и та же метрика, полученная для двух разных моделей, может быть несопоставимой, если они не применяются к одному и тому же набору данных. Количество изображений, используемых для проверки эффективности модели, варьируется в разных работах, и в некоторых случаях это количество не указано чётко. Более того, даже если метрики были получены с одинаковым количеством изображений, в зависимости от диапазона плотности устьиц эти значения могут отражать существенно разное количество случаев.

В более широком смысле, состав набора данных, на основе которого рассчитываются эти значения, часто неясен. Важно, чтобы тестирование проводилось на изображениях, полностью независимых от процесса обучения. Высокие результаты на множестве изображений, представляющих более широкое разнообразие внешних характеристик, очевидно, более ценны. По этим причинам непросто сделать обоснованные выводы о том, какие методы/подходы работают лучше всего, просто сравнивая метрики эффективности, даже в исследованиях, использующих общие методы сбора или анализа данных.

Биологический контекст современных инструментов машинного обучения для фенотипирования устьичных паттернов

На сегодняшний день не менее 39 исследований (Дополнительная таблица S1) изучили, как можно ускорить анализ данных, применяя инструменты МО к микроскопическим изображениям эпидермиса листа для быстрого фенотипирования.

Прежде чем обсуждать конкретные методы МО и их производительность, важно отметить контекст, в котором они применялись. Это необходимо, поскольку методы ИИ/МО, как правило, сильно зависят от контекста; то есть модели необходимо обучать на данных, часто в больших объемах, и их способность выполнять задачу быстро снижается, если им затем предоставляются тестовые данные, которые выходят за рамки того, что использовалось для обучения.

Новые контексты, в которых существующий инструмент может потерпеть неудачу, включают образцы из новых подходов к выборке, новые модальности визуализации, новые генотипы, новые виды, новые среды или новые стадии развития, а именно любой фактор, который изменяет внешний вид эпидермиса на изображении. Последствия этого очень значительны, учитывая склонность биологических систем к изменчивости.

Изучаемые виды

На сегодняшний день применение инструментов искусственного интеллекта и машинного обучения для анализа изображений устьиц в основном сосредоточено на небольшом числе видов растений. Частота, с которой 57 специально обозначенных видов появляются в обучающем наборе данных модели, с дополнительной категорией для моделей, использующих неспецифический набор эпидермальных данных, включающий множество видов, показана на рисунке. Рис. 2А.

Важно отметить, однако, что даже при наличии модели для интересующего исследователя вида опубликованная модель может не собирать данные о интересующих его признаках и/или методы отбора проб могут быть несовместимы с имеющимися у исследователя ресурсами. Из 39 рассмотренных здесь статей наибольшее количество было посвящено изучению кукурузы (шесть статей), пшеницы (пять статей), бальзамического тополя (четыре статьи), арабидопсиса (три статьи), сои (три статьи) и гинкго (три статьи). Похоже, что фокус на каком-то конкретном типе устьиц не делается, а наблюдается более общая тенденция сосредоточивать исследования на видах, которые являются модельными системами и/или имеют экономическое значение.

Стратегия отбора проб тканей

Даже у однодольных, имеющих общую морфологию устьичного комплекса, стратегия отбора проб может существенно влиять на внешний вид изображения и, следовательно, на степень, в которой инструмент может точно идентифицировать структуры, как показано на Рис. 5.

Изображения в На рис. 5A–C  представлены образцы кукурузы, но различия в методах отбора проб и визуализации приводят к тому, что модель, обученная на одном из них, может потерпеть неудачу на других. Это отчасти связано с тем, что эти методы часто выбираются для облегчения количественной оценки конкретного признака.

Например, Лян и др.  (2022)  использовали портативные микроскопы для получения изображений листьев кукурузы  на месте  с целью определения размера пор (Рис. 5Б ), который не мог быть рассчитан по закрытым устьицам на конфокальных изображениях образцов листьев из Сапонаро  и др.  (2017)  (Рис. 5А).

Рис. 5. Изображения травы, полученные с помощью различных методов отбора проб и визуализации. (A) Образец листа кукурузы, полученный с помощью конфокального микроскопа (перепечатано с Сапонаро и др., 2017, с разрешения IEEE Proceedings). (B) Изображение живого листа кукурузы, полученное с помощью портативного светового микроскопа (Лян и др., 2022). (C) Кукурузная лаковая корка, полученная с помощью светового микроскопа (перепечатано с Чжан и др., 2022, с разрешения Elsevier). (D) Образец рисового листа, полученный с помощью СЭМ (перепечатано из Бхугра и др., 2018, с разрешения Трудов Института инженеров электротехники и электроники).

Фенотипирование плотности устьиц, размера, проводимости и других эпидермальных клеток

SD является самым простым и наиболее часто встречающимся признаком, выявленным в рассмотренных работах, причем в 33 из 39 рассмотренных работ описываются модели, которые это делают (Рис. 2D). SD обычно рассчитывается путем подсчета количества устьиц, которые модель предсказывает на основе обнаружения объектов или сегментации экземпляров. Важно отметить, что точные оценки SD не будут достигнуты, если устьица, частично лежащие на изображении, не обрабатываются правильно.

Простой и распространенный подход заключается в подсчете только устьиц, лежащих на одном из двух вертикальных краев и на одном из двух горизонтальных краев. Однако статьи с сильным акцентом на анализе изображений иногда не реализуют этот подход. К счастью, коррекцию можно применить после завершения операций МО/ИИ. Однако инструмент ИИ/МО действительно должен быть обучен определять частичные устьица на краях изображения, если требуются оценки SD. Если размер устьичных комплексов является фокусом, то частичные устьичные комплексы на краях изображений игнорируются.

Длину и ширину ограничивающих рамок или эллипса, соответствующего периметру устьичного комплекса, можно использовать для оценки SCL и SCW, но для надежности этот метод требует, чтобы длинная ось устьиц была последовательно параллельна длинной оси ограничивающей рамки, в отличие от Рис. 6А.

Более продвинутые инструменты сегментации экземпляров предсказывают точные пиксели, определяющие размер и форму пор (Рис. 6Б) и устьичные комплексы (Рис. 6C), исключая экстраполяцию этих измерений из ограничивающих рамок или эллиптических аппроксимаций. Менее 12 рассмотренных работ содержали собранные данные о размерах пор или сложных размеров (Рис. 2D). Однако эта информация становится все более распространенной и может быть важна для объяснения изменений в устьичной проводимости (Сье  и др. , 2021).

Рис. 6. Выходные данные модели зависят от анализа машинного обучения. (A) Обнаружение устьиц конских бобов и классификация открытого/закрытого состояния (Ли  и др., 2023). (B) Сегментация устьичных пор черного тополя (Сонг и др., 2020). (C) Сегментация устьичного комплекса сорго (перепечатано из Бхиманахалли  и др., 2021, с разрешения Американского общества биологов растений). (D) Сегментация экземпляров устьичного комплекса кукурузы и клеток тротуара (перепечатано из (Се и др., 2021, с разрешения Американского общества биологов растений).

Только в одной статье описывается количественная оценка площади пары замыкающих клеток для оценки максимальной устьичной проводимости (Гиббс  и др. , 2021 ), хотя другой количественно оценивает объем отдельных замыкающих клеток, чтобы понять биомеханику устьичной щели (Davaasuren  et al., 2022).

Насколько нам известно, попытки измерения только дочерних клеток пока не предпринимались. Измерение этих отдельных типов клеток позволило бы изучить, как клеточная морфология является результатом процессов развития и влияет на функцию устьиц. Менее пяти работ распространяют анализ на другие эпидермальные клетки, не входящие в состав устьичного комплекса (Рис. 6D), позволяющий количественно оценить плотность, размер и площадь клеток тротуара (PCD, PCL, PCW и PA).

В сочетании с SD подсчёт всех остальных эпидермальных клеток позволяет рассчитать устьичный индекс (SI; число устьичных комплексов, делённое на общее число эпидермальных клеток), а также провести более глубокое исследование того, как изменения в развитии листьев влияют на изменения в устьичном узоре, хотя этот показатель количественно оценивается только в двух работах (Сье и др., 2021Чжу  и др., 2021). Эти признаки, в частности, совершенно нереально собрать вручную в значительном количестве, и поэтому они являются прекрасными примерами обилия дополнительных данных о признаках, доступных с помощью машинного анализа изображений.

Разработаны инструменты компьютерного зрения для оценки расположения устьиц

Область машинного обучения (ML) стремительно развивалась в последнее десятилетие, как и применение инструментов машинного обучения к фенотипированию устьиц (Дополнительная таблица S1). Существует исключительно широкий спектр методов, с помощью которых проводился анализ, но ни одно исследование не ставило перед собой задачу трудоемкого процесса широкого взаимного сравнения методов. Это означает, что невозможно провести объективное количественное сравнение эффективности моделей.

Однако теперь мы рассмотрим инструментарий подходов компьютерного зрения, разработанный в последние годы и применяемый для оценки изображений устьиц. Мы начнем с классических методов без обучения в качестве исторического контекста, а затем сосредоточимся на моделях искусственного интеллекта/машинного обучения как на прогрессе технологических достижений. Алгоритмы обнаружения объектов с использованием DL будут в целом разделены на две категории: двухэтапные (с предложениями) и одноэтапные (без предложений) сети, в зависимости от того, сколько раз входное изображение проходит через сеть.рис. 7).

Рис. 7. Типы алгоритмов обнаружения объектов глубокого обучения. Категоризация распространённых алгоритмов глубокого обучения, представленных в рассмотренных работах, на основе потока обработки изображений (модифицировано с Вишваната  и др., 2022).

Классические подходы к компьютерному зрению без обучения

В связи с повторяющейся структурой устьичных клеток в геометрической структуре было предложено много классических подходов к компьютерному зрению, использующих преобразования Фурье (Бригам и Морроу, 1967) и фиксируя свойство повторяемости в частотной области. Алгоритмы водораздела (Рёрдинк и Мейстер, 2000Дуарте и др., 2017) также широко использовались для сегментации отдельных устьичных клеток на изображении листа, а затем морфологические операторы для дальнейшей настройки границ устьичных клеток (Саньял и др., 2008Aono et al., 2021).

Другим популярным методом обнаружения устьичных клеток является использование максимально стабильных экстремальных областей (MSER) ​​(Лю и др., 2016Чжан и др., 2022). Этот метод обычно используется для обнаружения пятен на изображениях. Аналогично, существуют и другие методы, основанные на вейвлет-преобразованиях (Дуарте и др., 2017 ), скелетизация (Джаякоди и др., 2017), Чан-Везе (Ли  и др. , 2019Были также предложены методы (Лян и др., 2022) и др.

Хотя подобные методы оказались довольно полезными, методы, основанные на машинном обучении и глубоком обучении, оказались гораздо более эффективными для широкого спектра задач компьютерного зрения, включая оценку устьиц.

AI/ML: двухэтапные сети (на основе предложений регионов)

Двухэтапная стратегия обнаружения объектов включает в себя: (i) предложение региона и (ii) классификацию региона как основного трубопровода. Некоторые из распространённых алгоритмов двухэтапного обнаружения объектов подробно описаны ниже.

Сверточные нейронные сети на основе регионов

Одним из основных игроков в области двухступенчатых сетей является серия региональных сверточных нейронных сетей (R-CNN), самая ранняя из которых называется просто R-CNN (Girshick et al., 2014). Она берёт различные области интереса (ROI) на изображении и использует сверточную нейронную сеть (CNN) для определения наличия или отсутствия объекта в этой области.

Используя селективный поиск, можно получить всего 2000 областей интереса на изображение. Это называется сетью предложения областей (RPN). За RPN следуют слои CNN, которые извлекают визуальные признаки, управляемые данными, из каждой области интереса и обучают классификатор на основе опорных векторов на наличие или отсутствие объекта в этой области. Эта модель не получила широкого распространения для анализа изображений устьиц, но она заложила основу для дальнейших исследований, связанных с микрофотографиями эпидермиса.

Быстрая сверточная нейронная сеть на основе регионов

Вторая итерация в серии R-CNN — это Fast-RCNN (Girshick, 2015). Поскольку вычислительная эффективность является одним из основных недостатков R-CNN, вместо того, чтобы передавать RPN в CNN, можно напрямую передавать в CNN всё изображение целиком.

Это приводит к появлению признаков, управляемых данными, которые, в свою очередь, помогают лучше определять области интереса. Это делает модель Fast R-CNN намного быстрее стандартной R-CNN. Поскольку большинство рассмотренных статей были опубликованы после 2020 года, чаще используются последующие итерации в серии R-CNN.

Более быстрая региональная нейронная сеть

Процесс выборочного поиска для предложений регионов медленный и является узким местом для общей эффективности модели. Более быстрая R-CNN устраняет блок выборочного поиска и вместо этого позволяет сети самостоятельно изучать области интереса (Рен  и др., 2017).

Предполагаемые области прогнозирования затем преобразуются с помощью слоя объединения областей интереса (ROI), который затем используется для классификации изображения в пределах предполагаемой области и прогнозирования значений смещения для ограничивающих рамок.

Faster R-CNN имеет дополнительную сверточную нейронную сеть для получения предложения области. Это значительно повышает производительность и делает Faster R-CNN подходящей для развертывания в режиме реального времени для вывода данных.

Рассмотренные модели, использующие Faster R-CNN, включают: Ли и др. (2019)Лян  и др. (2022)Янг и др. (2021)Чжан  и др.  (2022) и Zhu et al. (2021).

Сверточная нейронная сеть на основе области маски

Маска R-CNN (He  et al. , 2017 ) были построены с использованием конвейера Faster R-CNN, с основным отличием: в то время как Faster R-CNN имеет два выхода для каждого объекта-кандидата (метка класса и смещение ограничивающего прямоугольника), Mask R-CNN добавляет третий, который предоставляет маску объекта для каждого экземпляра объекта.

Благодаря более высокой вычислительной эффективности и высокой точности, Mask R-CNN широко использовались для вывода обнаружения объектов в реальном времени. Он нашел применение в различных областях, одной из которых является обнаружение устьичных клеток. Рассмотренные модели, использующие Mask R-CNN, включают: Бхиманахалли  и др.  (2021)Коста  и др.  (2021)Джаякоди и др. (2021)Сонг и др.  (2020) и Сье  и др.  (2021).

AI/ML: одноступенчатые (без предложений) сети

Одноэтапная стратегия обнаружения объектов заключается только в классификации региона как основного конвейера. Некоторые распространённые алгоритмы одноэтапного обнаружения объектов приведены ниже.

Ты смотришь только один раз

Функция «Вы смотрите только один раз» (YOLO) не рассматривает изображение целиком. Вместо этого она анализирует те его части, которые с большей вероятностью содержат объект (Redmon et al., 2016). Сеть за один проход предсказывает вероятности классов, ограничивающие рамки каждой из этих областей интереса и их смещения.

Это сквозная обучаемая сеть, принимающая решения одновременно. Этот подход оказался популярным для анализа изображений в целом, что привело к серии итеративных улучшений метода. Среди рассмотренных работ, использующих YOLO, можно назвать: Касадо-Гарсия  и др.  (2019 г.2020), Ли  и др. (2023)Султана и др.  (2021)Янг и др. (2021) и Чжан и др.  (2022).

Однократный детектор MultiBox

Как следует из названия, задачи обнаружения и классификации объектов выполняются за один прямой проход сети. Это называется одиночным срабатыванием. Детектор MultiBox (Лю  и др. (2015) – это метод регрессионного анализа для поиска ограничивающих рамок на изображении путём минимизации потерь достоверности (объектности области) и местоположения (насколько далеко прогнозируемая область интереса от фактической). Вместе они образуют детектор объектов Single-shot MultiBox (SSD). Одним из ключевых преимуществ этого типа детектора является прогнозирование объектов различных масштабов и соотношений сторон. Это делает такие детекторы применимыми и для изображений с низким разрешением. Среди рассмотренных работ, использующих SSD, можно назвать: Квонг и др. (2021)Раззак и др. (2021)Сакода и др. (2019) и Янг и др.  (2021) .

Распространенные проблемы анализа структуры устьиц с помощью МО

Несмотря на достигнутые на сегодняшний день успехи (Рис. 26Дополнительная таблица S1), сохраняются трудности в широком внедрении инструментов искусственного интеллекта и машинного обучения для фенотипирования устьиц, и многие из этих трудностей изначально присутствуют во всех приложениях моделей машинного обучения. В оставшейся части обзора будут описаны эти трудности, объяснена их значимость для фенотипирования устьиц и даны рекомендации по оптимальному использованию инструментов машинного обучения в будущем.

Наземные данные

Как уже упоминалось, МО требует больших объёмов данных, полученных с помощью наземных измерений. Например, наиболее распространённая задача обнаружения устьиц для оценки СД требует ручного рисования ограничивающих рамок вокруг сотен изображений устьиц экспертами-людьми. Чжан  и соавторы  (2022)  создали набор данных из 2150 достоверных изображений кукурузы, в которых 23 360 устьиц были вручную аннотированы с помощью ограничивающих рамок для обучения их модифицированной модели YOLO DL.

Время, необходимое для генерации этих данных, в статье не указано, но по консервативной оценке оно составило более 25 часов ручного аннотирования, не включая заявленные 5,65 часа вычислительного времени. Модель достигла F1-оценки 0,97 на 26 новых изображениях кукурузы, но затраченное время может окупиться только в том случае, если модель будет точно применена к другим более крупным наборам данных в будущем.

Исследования пытались определить минимальный объём данных для наземного обучения, необходимый для достижения приемлемых результатов, но результаты не поддаются широкому обобщению из-за различий в стратегии визуализации и стандартного отклонения (SD) у разных видов. Например, Бхиманахалли  и др.  (2021)  использовали наборы данных с 20–300 реальными изображениями сорго для обучения и обнаружили наибольшую производительность на самом большом наборе данных. Сакода  и др.  (2019)  протестировали наборы данных, содержащие 25–200 наземных изображений сои, и обнаружили, что оптимальная производительность достигается при 175 изображениях и снижается при 200 изображениях. В большинстве рассмотренных здесь работ для обучения используются наборы данных объемом от 100 до 1000 изображений.

Кроме того, время, необходимое для получения данных о наземных данных, непропорционально увеличивается при попытке собрать больше данных о признаках. Хотя SD остаётся важным признаком, есть также данные о том, что SCL, SCW и размер поры являются важными факторами, влияющими на устьичную проводимость (Фрэнкс и др., 2009Xie et al., 2021). Однако, хотя в 33 работах рассчитывается SD, только в 12 оценивается размер пор, а еще меньше — другие характеристики устьиц (Рис. 2D ).

Одной из причин может быть то, что создание данных для сегментации, таких как сегментация пор (Рис. 6Б ) или сегментация устьиц (Рис. 6C ) требует от человека-аннотатора точного контура каждого объекта на уровне пикселей, что занимает значительно больше времени, чем простое нанесение ограничивающих рамок.

В работах, посвященных сегментации размера пор, обычно используются обучающие наборы данных, состоящие из сотен изображений, подобно моделям, извлекающим SD, но для создания набора данных, соответствующих реальному положению дел, из того же количества изображений требуется гораздо больше времени.

Время, необходимое для ручного аннотирования, экспоненциально возрастает при попытке фенотипировать другие эпидермальные клетки, помимо устьиц, но, следовательно, также увеличивается и время, экономящееся при использовании многопризнаковой автоматизированной модели фенотипирования (Рис. 6D ).

Хотя создание данных для наземного тестирования всегда требует временных затрат, это делается в надежде на повышение эффективности новой модели на будущих изображениях. Это не гарантировано и зависит от характера изображений, добавленных в тренировочный набор, и изображений в новых тестовых наборах данных.

Однако, если тренировочный и проверочный наборы данных содержат достаточное фенотипическое разнообразие, репрезентативное для тестового набора данных по количественно оцениваемым признакам, время построения модели можно минимизировать. Кроме того, модель с комбинированным тренировочным и проверочным набором данных из 80 изображений, развернутая на небольшом наборе из 20 изображений, может быть быстрее, чем ручные измерения нескольких признаков для всех 100 изображений.

Контекстная зависимость

Контекстная зависимость — это явление, при котором модель машинного обучения хорошо работает на данных, аналогичных тем, на которых она обучалась, но плохо работает на данных, содержащих новые формы и признаки. Контекст модели можно описать сочетанием факторов, включая, помимо прочего, вид, возраст растений, метод выборки, увеличение и качество изображения. Некоторые из этих факторов могут оказаться более значимыми, чем другие, а некоторые можно минимизировать, диверсифицировав обучающий набор данных, включив новый биологический материал или аугментацию изображения.

В пределах одного вида существует диапазон СД, размеров и форм клеток. Изменчивость будет ещё больше возрастать при исследовании разных видов, а морфология устьиц может существенно различаться у разных функциональных групп растений. Многие исследователи стремились создать модели, которые могли бы переносить знания, полученные от обученного вида, на другие виды со схожей общей морфологией устьиц, с разной степенью успеха. Бхугра  и др.  (2018)  обучили модель на более чем 13 000 изображениях устьиц риса, полученных с высоким разрешением и большим увеличением и полученных с помощью СЭМ.

Авторы утверждают, что ее можно перенести на пшеницу, хотя они и не приводят количественную оценку этой эффективности. Сонг  и др.  (2020)  приводят яркий пример использования трансферного обучения для решения проблемы зависимости от контекста. Их первоначальная модель обнаружения устьиц и сегментации пор была обучена на 750 изображениях чёрного тополя и достигла точности 96,87% и полноты 96,72% на тестовом наборе данных чёрного тополя.

Эта модель для чёрного тополя была непосредственно применена к изображениям бальзамического тополя и гинкго, полученным с использованием той же методологии выборки, но показала низкую эффективность: точность составила 12,4% и 64,6%, а полнота — 7,2% и 32,4% для бальзамического тополя и гинкго соответственно. После настройки предобученной модели, основанной на данных о черном тополе, с использованием 80 изображений бальзамического тополя или 73 изображений гинкго, полученные две видоспецифичные модели показали значительно более высокую точность (76,5% и 84,7%) и полноту (80% и 69%) для бальзамического тополя и гинкго соответственно.

При использовании обучающих наборов данных, составлявших десятую часть от исходного размера модели, эти модели показали относительно хорошую эффективность на новых видах. Это открывает путь к быстрой адаптации существующих инструментов к более широкому разнообразию исследуемых видов.

Анатомические различия часто приводят к существенной разнице в результатах модели, обученной на двудольном растении, и примененной к однодольному растению, и наоборот. Ли  и др.  (2023)  сообщили о точности определения устьиц 0,934, полученной с помощью модели YOLO, обученной на конских бобах, двудольном растении. Применение той же модели к однодольной пшенице показало снижение точности до 0,894. Более глубокое понимание ограничений инструментов машинного обучения побудило других исследователей создать отдельные модели для однодольных и двудольных растений (Гиббс и др., 2021Сай и др. , 2023).

Другие подходы пытаются создать более обобщенную модель. Casado-García et al.  (2020)  демонстрируют успешность модели, обученной одновременно на видах с различной морфологией устьиц, а именно на замыкающих клетках гантели однодольного растения и замыкающих клетках фасоли двудольного растения. Их объединенная модель, обученная на фасоли обыкновенной, ячмене и сое, имеет среднюю оценку F1 0,93 при применении к новым изображениям всех трех видов.

Однако существует компромисс, поскольку объединенная модель, примененная к одному виду, часто дает больше ложноположительных результатов, чем модель, обученная исключительно на этом виде. Они также иллюстрируют, насколько плохой может быть производительность, когда модели, обученной только на однодольном, предъявляют изображения двудольного растения (модель ячменя на сое, оценка F1 = 0,05).

Однако, когда модель подвергается воздействию различных устьиц в процессе обучения, она может хорошо работать на нескольких видах. Однако важно учитывать, что для их комбинированной модели потребовалось создание наземных данных для более чем 3000 изображений, содержащих от 15 до 100 устьиц каждое. Создание этой модели по-прежнему требовало ручного анализа более чем 150 000 устьиц.

Зависящая от контекста эффективность также не является исключительной особенностью изменений в видах. Ли  и соавторы  (2022)  демонстрируют зависимость от контекста относительно метода выборки. Их модель изначально обучалась на микроскопических изображениях в светлом поле, но не очень хорошо работает на конфокальных изображениях.

Они используют модель светлого поля в качестве основы и применяют трансферное обучение для обучения модели для конфокальных изображений на меньшем наборе данных наземной истины, чем потребовалось бы для модели, обученной с нуля. Эта конфокальная модель с трансферным обучением обеспечивает сопоставимую высокую точность вычисления SD (97,4%) по сравнению с исходной моделью светлого поля (96,3%), при этом для нее потребовалось всего шесть дополнительных конфокальных изображений наземной истины по сравнению со 140 изображениями светлого поля наземной истины. В этом случае трансферное обучение помогает устранить зависимость от контекста из-за метода выборки, что делает модель доступной для более широкого круга исследователей.

Toda  et al.  (2018 , Preprint) иллюстрируют влияние вариации размера устьиц. Их модель пшеницы для обнаружения устьиц, примененная к  Brachypodium  , показала плохую производительность, по-видимому, идентифицируя только два из более чем 40 устьиц. Если бы разница в производительности была результатом применения модели к новому виду с устьицами, которые по своей сути отличаются от устьиц пшеницы, мы не ожидали бы, что изменения в процедуре отбора проб улучшат производительность.

Однако, поскольку два вида имеют одинаковую морфологию устьиц однодольных, наиболее существенным различием является размер клеток. Визуализация  образцов Brachypodium  при большем увеличении, так что устьица имеют схожие размеры пикселей с устьицами пшеницы, привела к сопоставимому обнаружению устьиц на  Brachypodium.

Кроме того, Ли  и др.  (2019)  продемонстрировали, что ошибка модели коррелирует с размером сегментируемой структуры. Точность сегментации пор выше для более открытых устьиц, чем для более закрытых. Если устьица открыты более чем на 40%, ошибка сегментации составляет около 4,8%, в то время как для устьиц, открытых на 10–20%, ошибка составляет 9,5%. Если исследователь стремится к точному измерению размера пор, может быть целесообразно получать изображения образцов при большем увеличении. Зависимость от контекста можно преодолеть не только путем диверсификации обучающего набора данных, но и путем внесения изменений в методологию выборки в зависимости от целей исследования.

Зачастую производительность можно повысить, даже не добавляя никакого дополнительного биологического разнообразия в обучающий набор данных. У Касадо-Гарсии  и соавторов  (2019)  был исходный обучающий и проверочный наборы данных, состоящие из 131 изображения.

Они создали три других дополненных набора данных, содержащих исходные изображения, а также их версии, перевёрнутые или размытые, пытаясь повысить устойчивость модели к изменениям ориентации и качества изображений. Результаты показывают повышение точности расчёта стандартного отклонения (СКО) в дополненных наборах данных. Поскольку такие дополнения часто могут повысить производительность и использовать существующие данные ручной аннотации, это может быть простым способом повысить обобщаемость модели.

Подгонка модели

Подгонка модели описывает, насколько точно предсказания модели соответствуют предоставленным реальным данным. Плохая подгонка модели — распространённая проблема в машинном обучении. Модель считается недообученной, если предсказания не соответствуют ни обучающему набору данных, ни реальным данным проверочного набора данных.

В контексте устьиц это часто происходит, когда модели предоставлено слишком мало экземпляров устьиц для обучения закономерностей, или обучение проводится на слишком малом количестве эпох, или если сеть недостаточно глубока для учёта нелинейностей в структуре данных. Увеличение размера обучающего набора данных таким образом, чтобы у модели было больше примеров для обучения, часто решает проблему недообучения, но исследователи, очевидно, хотят минимизировать объём необходимого утомительного ручного аннотирования.

Модель считается переобученной, если предсказания очень похожи на реальные данные обучающего набора данных, но не на реальные данные проверочных данных. Это может произойти, если обучающие изображения выбраны с предвзятостью, которая делает их каким-либо образом отличными от проверочных данных.

Переобучение предполагает, что модель научилась правильно распознавать шум в конкретном наборе тренировочных изображений, а не выучила закономерности для идентификации устьиц в более общем смысле. Это особенно характерно для глубокого обучения (DL) из-за большого количества обучаемых параметров. Обучение модели на слишком большом количестве эпох, слишком малое количество обучающих изображений и зашумлённые ручные аннотации — вот некоторые из распространённых причин переобучения модели.

Одним из эффективных способов обнаружения переобучения является K-кратная кросс-валидация, при которой тренировочные данные делятся на K подмножеств одинакового размера и одно из них используется для проверки, а остальные — для тестирования на каждой итерации. Этот метод используется в Аоно и др. (2021)Даваасурен и др. (2022)Сонг и др. (2020) и Чжу  и др.  (2021).

Переобучение можно предотвратить с помощью таких методов, как аугментация данных (применение преобразований, таких как перевод, переворачивание и поворот, к входным изображениям), пакетная нормализация (т. е. нормализация выходных данных предыдущего слоя в сверточной нейронной сети), регуляризация с выпадением нейронов (т. е. случайная деактивация части нейронов в сверточной нейронной сети) и ранняя остановка обучения (когда минимизация потерь меньше эпсилон).

Вычислительные требования

Глубокое обучение приобрело значительную популярность в различных областях научных исследований благодаря своей способности изучать характеристики, определяемые данными, и возможности постоянного совершенствования. Однако это сопровождается значительным спросом на вычислительные мощности. Томпсон  и др.  (2020)  провели анализ 1527 исследовательских работ и пришли к выводу, что требования к вычислительным ресурсам со временем значительно возросли. Это стало одним из основных препятствий для исследований в лабораториях с ограниченными ресурсами.

Сверхпараметризация

Превышение количества параметров модели над количеством доступных обучающих экземпляров часто приводит к снижению производительности. Это называется перепараметризацией. Вычислительная сложность обучения глубокой нейронной сети (NN) масштабируется с увеличением количества параметров модели. Хотя потребность в большей вычислительной мощности, обусловленная этим, привела к появлению более мощных графических процессоров по более низкой цене, качество данных и их датчиков сбора данных также повышается (т.е. увеличивается количество точек обучающих данных). Следовательно, потребность в более качественной вычислительной системе всегда будет преобладать для будущего моделей на основе глубокого обучения.

Качество изображения

Качество изображения, очевидно, может существенно влиять на эффективность модели. Хотя люди обладают высокой способностью адаптироваться к просмотру новых наборов данных и выявлению в них повторяющихся особенностей, таких как расположение устьиц в эпидермисе, модели, рассматриваемые в данном обзоре, в основном распознают объекты по их внешнему виду, не учитывая информацию о структуре. Джаякоди и др. (2021)  количественно оценили влияние качества изображения на эффективность модели.

Они обнаружили, что их модель, обученная на изображениях разных видов, методов визуализации и качества, сохраняет некоторую точность при снижении качества изображения, но при этом резко снижается полнота. Феттер и др. (2019) продемонстрировали тот же феномен, сначала классифицировав изображения по их энтропии, которая количественно характеризует контрастность и уровень шума. Они обнаружили, что снижение качества изображения чаще приводило к недооценке плотности устьиц.

Дисбаланс классов и неоднородность объектов

Данные, описывающие паттернирование неустьичных типов клеток в эпидермисе, могут быть ценны для понимания развития листа, а также его функций. Фенотипирование других типов клеток, таких как клетки мостовой, представляет дополнительные трудности по сравнению с оценкой только признаков устьиц. Попытка обучить модель одновременно на клетках мостовой и устьицах сталкивается с проблемой дисбаланса классов, поскольку клетки мостовой встречаются в пять раз чаще, чем устьица.

Модель может одновременно испытывать переобучение для клеток мостовой и недообучение для устьиц из-за этого дисбаланса классов. Кроме того, клетки мостовой обычно имеют гораздо большую гетерогенность по форме и размеру, чем клетки устьиц, поэтому модель должна быть более устойчивой, чтобы иметь возможность работать со многими клетками мостовой.

Хотя существует множество методов решения проблемы классового дисбаланса (Dutta  et al., 2020), лишь немногие биологически ориентированные исследования использовали их. Возможные варианты популярных методов устранения классового дисбаланса включают следующие.

Повторная балансировка набора данных

Это используется для выравнивания распределения данных между различными классами с помощью различных методов повторной выборки. Этот метод применяется к имеющимся данным перед их передачей в сеть для обучения. Ниже приведены некоторые из наиболее распространённых методов.

  1. Наивная недовыборка: здесь мы выбираем только часть от общего числа выборок из класса большинства и отбрасываем оставшиеся. Это, безусловно, приводит к потере значительного объёма ценных обучающих данных за счёт повышения эффективности модели в различных классах.

  2. Избирательная дезактивация (Barandela et al., 2003): это также метод субдискретизации, аналогичный описанному выше; однако выборки не выбираются случайным образом. Вместо этого определяется евклидово расстояние между выборками внутри большинства, и сохраняются только те выборки, k-ближайшие соседи которых полностью совпадают друг с другом.

  3. Наивная передискретизация (Чжан и др., 2018): в этом методе данные классов меньшинства дополняются (переворачиванием, поворотом, обрезкой, манипулированием разрешением и т. д.) для соответствия количеству образцов класса большинства.

  4. Аугментация на основе GAN (Сянь и др., 2018): эта техника использует глубоко генеративные модели для создания дополнительных «поддельных» изображений образцов меньшинств или их особенностей.

Классификатор обучения, чувствительный к стоимости

Целью данного подхода является обучение более эффективного классификатора, используя несбалансированный набор данных как таковой, без какой-либо обработки выборок. В этих методах целевая функция обучения корректируется с учётом несбалансированности классов в данных. К распространённым функциям потерь, чувствительным к стоимости, относятся следующие.

  1. Очаговая потеря (Лин и др., 2017) и сбалансированная по классу фокальная потеря (Cui  et al. , 2019 ): фокальная потеря была предложена для компенсации дисбаланса данных переднего и заднего планов. Например, в контексте обнаружения устьиц на основе данных о листьях устьичные клетки занимают очень малую часть изображений. Следовательно, количество пикселей, представляющих устьичные клетки на изображении, невелико. С помощью простой модификации кросс-энтропийной потери, сбалансированная по классам версия включает количество выборок в функцию потерь и присваивает соответствующие веса потерям каждого класса, при этом второстепенный класс получает более высокие веса.

  2. Регуляризатор разнообразия (Hayat et al., 2019): этот термин добавляется к общей цели обучения и помогает выделить признаки большинства и меньшинства в латентном пространстве на равном расстоянии друг от друга. Было обнаружено, что это обеспечивает значительное улучшение общей производительности.

Фенотипирование неустьичных эпидермальных клеток

Как уже отмечалось, только в четырёх из рассмотренных статей предпринимается попытка количественной оценки неустьичных эпидермальных клеток, помимо устьиц. В двух статьях фенотипирование клеток мостовой проводится путём обучения дополнительной модели, отдельной от той, которая используется для устьиц. 

Чжу  и др.  (2021)  используют одну модель для обнаружения устьиц и отдельную модель U-Net для семантической сегментации клеток тротуара в пшенице. Однако семантическая сегментация, как было описано ранее, даёт лишь прогноз всей сети клеток тротуара, не различая отдельные клетки. На дополнительном этапе вычисляется количество отдельных клеток тротуара, после чего вычисляется индекс целостности (SI). 

Сапонаро  и др.  (2017)  аналогичным образом разработали отдельные модели CNN для обнаружения устьиц и семантической сегментации клеток мостовой с относительно успешными результатами (Дополнительная таблица S1).

Две опубликованные модели одновременно предсказывали наличие устьичных и мостовых клеток. Сье  и соавторы  (2021)  использовали Mask-RCNN, обученную всего на 33 оптических томографических изображениях популяции рекомбинантной инбредной линии кукурузы (RIL). Однако это соответствовало большому количеству экземпляров клеток, поскольку пиксельная граница каждой устьичной и мульчирующей клетки была аннотирована.

Эффективность модели на всем наборе данных RIL кукурузы (более 3200 изображений за каждый из двух лет) показала сильную корреляцию между ручными и измеренными значениями стандартного отклонения (SD) и плотности клеток мульчирующей клетки (R2 = 0,974, R2 = 0,961). Liang et al. (2022) описали другую модель, LeafNet, которая была обучена на светлопольных изображениях эпидермальных срезов Arabidopsis, на которых были аннотированы устьичные и мостовые клетки.

Результаты для SD (96,3% точности, 98,1% полноты) и качества сегментации клеток мостовой (метрика, включающая TP и IoU, 88,6%) столь же сильны. Кроме того, перенос обучения и переобучение всего с шестью изображениями из альтернативного модальности конфокальной визуализации дали сопоставимую производительность для SD (97,4% точности, 97,4% полноты) и качества сегментации клеток мостовой (93,4%).

LeafNet также опубликовала графический интерфейс для исследователей с меньшим опытом программирования. Вместе эти две модели иллюстрируют способность инструментов МО одновременно и точно количественно оценивать признаки устьичных и мостовых клеток во внутривидовом разнообразии, у видов со схожей морфологией эпидермальных клеток и при разных модальностях визуализации.

Будущие направления

В совокупности рассмотренные статьи предлагают следующие текущие передовые практики и будущие направления в области контролируемого МО применительно к устьичным признакам. В дополнительной таблице S1 собраны ключевые характеристики моделей из рассмотренных статей, и она является хорошим источником информации для поиска потенциальных отправных точек в разработке нового инструмента МО-анализа, подходящего для заданной комбинации оборудования, видов, желаемых результатов по признакам и опыта программирования.

При построении новой модели исследователям следует в первую очередь оптимизировать методы сбора образцов и визуализации, чтобы минимизировать технические вариации изображений, при этом сохраняя методологию с достаточно высокой пропускной способностью. Затем следует собрать небольшой набор данных для аннотации наземных данных, содержащий разнообразие, с которым модель будет регулярно представляться в её приложении.

Сборка набора данных наземных данных должна стремиться к представлению максимального разнообразия выборок в минимальном количестве, чтобы сократить как время ручной аннотации, так и вычислительные затраты. Лучше всего начинать с минимального количества изображений, представляющих наблюдаемый диапазон интересующего признака, чтобы сократить время ручной аннотации и вычислительные затраты.

Впоследствии эффективность модели можно повторно протестировать, постепенно добавляя новые изображения, пока не будет достигнут приемлемый результат. Важно отметить, что количество устьиц в обучающих данных важнее, чем количество изображений  как таковых. Таким образом, десятки изображений, каждое из которых содержит десятки устьиц, могут быть эквивалентны сотням изображений, каждое из которых содержит по одному или по два устьица.

Новые методы ИИ/МО

В последнее время наблюдается слишком много достижений в фундаментальных методах искусственного интеллекта и машинного обучения, чтобы перечислить все подходы, которые можно было бы использовать для фенотипирования устьичных паттернов. Однако среди наиболее примечательных примеров можно назвать активное обучение (Агарвал и др., 2020) для повышения эффективности ручного аннотирования для компьютерного зрения.

Кроме того, были разработаны предобученные базовые модели, такие как SAM (модель сегментации всего) от Meta (Кириллов и др., 2023), обучение с предварительной загрузкой на огромных наборах данных, доступных в Интернете, в надежде избежать необходимости обучения для решения конкретных задач, таких как обнаружение объектов и сегментация устьиц. Успешные примеры (Ma  et al., 2024) использования базовых моделей, применяемых в биологических исследованиях, посредством тонкой настройки, предполагает осуществимость этого предложения.

Фенотипирование эпидермального паттерна и устьичной проводимости

Достижения в понимании структуры и функций устьиц предполагают ценность фенотипирования и понимания, выходящего за рамки SD. Инструменты ИИ/МО, безусловно, способны обнаруживать и сегментировать отдельные клетки. Следовательно, существует возможность для более глубокого понимания, если модели будут выдавать больше данных о признаках устьичного комплекса и клеток окружающего эпидермиса.Сье  и др., 2021Ли и др., 2022 ).

Моделирование, которое не только характеризует устьичные структуры по изображениям, но и учитывает базовые функциональные сигналы (например, газообмен, фотосинтез) для лучшего понимания биологических процессов, повышающих эффективность использования ресурсов растениями, изучено недостаточно (Гиббс и др., 2021).

Графовые нейронные сети успешно использовались для моделирования различных биологических процессов, таких как прогнозирование заболеваний и разработка лекарств (Чжан  и др. , 2021 ). Поэтому ожидается, что они могут способствовать лучшему пониманию этих сложных взаимодействий, способствуя выявлению более эффективного использования ресурсов растениями.

Динамическое поведение устьиц имеет решающее значение для регулирования потока углерода и воды в системе почва–растение–атмосфера и важно для масштабирования измерений на уровне листьев. Достигнуты лишь ограниченные успехи в интеграции систем визуализации с моделями, способными фиксировать временную реакцию устьиц. Нейронные сети, способные извлекать значимую информацию и обнаруживать изменения в последовательностях изображений (Вебер и др., 2021) могут значительно сократить этот разрыв в ближайшем будущем.

Универсальная модель для фенотипирования устьичного рисунка?

Проблема зависимости от контекста отмечена во всех рассмотренных здесь работах. Существующая литература свидетельствует о возможности создания моделей, обеспечивающих надежную работу при значительном генотипическом и фенотипическом разнообразии внутри вида растений или для нескольких видов в пределах функциональной группы растений, при условии относительной постоянства методов отбора проб и визуализации. Пока неясно, можно ли разработать нечто, приближающееся к «универсальной» модели, для эффективной работы в условиях разнообразных видов, стадий развития, сред и/или методов сбора данных. Успех в этом начинании будет иметь преобразующее значение, поскольку устранит многие существующие препятствия для внедрения в более широком сообществе биологических исследователей.

В то же время, по мере того как исследователи создают дополнительные модели в более ограниченных контекстах (например, для новых отдельных видов), им следует использовать аугментацию данных для усиления обучающего набора данных, а в случаях снижения эффективности модели чаще использовать перенос обучения для минимизации дополнительных временных затрат на создание новой модели. Современные методы генерации синтетических данных пока не нашли применения в этой области, но были предложены для дальнейшего дополнения обучающего набора данных (Гиббс  и др., 2021).

Количественное сравнение модели со стандартным набором данных

Примечательно, что непредвзятое, всестороннее и количественное сравнение эффективности различных методов искусственного интеллекта и машинного обучения для анализа микрографий эпидермиса и оценки особенностей устьичного рисунка до сих пор не проводилось. Это исследование, вероятно, будет ценным и выиграет от разработки стандартного набора данных для сравнения производительности алгоритмов, как это было сделано для других задач анализа изображений (Дэвид и др., 2020).

Однако наилучшая производительность модели может сильно зависеть от изучаемого вида, а также от применяемых методов отбора проб и микроскопии. Поэтому совместные усилия по определению стандартного набора данных будут крайне важны. Кроме того, темпы разработки новых методов искусственного интеллекта и машинного обучения высоки, что может означать, что сравнение методов не поспевает за внедрением новейших аналитических подходов.

Доступность инструментов машинного обучения и устьиц как модель применения ИИ/машинного обучения

Наконец, большинство моделей требуют определённого уровня знаний в области компьютерных наук, поэтому для полностью разработанных моделей следует рассмотреть возможность создания удобного пользовательского интерфейса для облегчения их широкого внедрения. Это указывает на необходимость дальнейшей работы не только над улучшением возможностей обобщения моделей, но и над совершенствованием веб-разработки, что сделает эти инструменты более доступными для исследователей, заинтересованных в использовании этих моделей для решения биологических задач.

Хотя вышеизложенные предложения относятся к инструментам МО, применяемым к весьма специфической задаче фенотипирования устьиц, они, несомненно, отражают траекторию развития применения МО в других разнообразных областях. Существует неизбежный зазор между разработкой новых методов МО и их внедрением неспециалистами в соответствующих областях, но мы надеемся, что этот обзор поможет эффективно направить интеграцию этих методов в модели эпидермального фенотипирования.

Дополнительная таблица S1

Paper Model Train Species Trait Collected Performance
Vialet-Chabrand, S., & Brendel, O. (2014). Automatic measurement of stomatal density from microphotographs. Trees, 28(6), 1859–1865. https://doi.org/10.1007/s00468-014-1063-5 Cascade classifier Quercus afares SD false positive rate:
Q. afares = 5%
Q. suber = 1.9%false negative rate:
Q. afares = 14.8%
Q. suber = 0.74%Accuracy:
Q. afares SD = 85.2%
Q. suber not reported
Jayakody, H., Liu, S., Whitty, M., & Petrie, P. (2017). Microscope image based fully automated stomata detection and pore measurement method for grapevines. Plant Methods, 13(1), 94. https://doi.org/10.1186/s13007-017-0244-9 Cascade objection detection (COD), HOG grapevine SD
pore size
Precision:
SD = 91.68%Accuracy:
SD = 74.04%
pore boundaries = 86.27%
Saponaro, P., Treible, W., Kolagunda, A., Chaya, T., Caplan, J., Kambhamettu, C., & Wisser, R. (2017). DeepXScope: Segmenting Microscopy Images with a Deep Neural Network. 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 843–850. https://doi.org/10.1109/CVPRW.2017.117 CNN maize SD
PCD
Precision:
SD = 0.78Recall:
SD = 0.69results for pavement cell segmentation presented as precision/recall curve
Bhugra, S., Mishra, D., Anupama, A., Chaudhury, S., Lall, B., & Chugh, A. (2018). Automatic Quantification of Stomata for High-throughput Plant Phenotyping. 3904–3910. F-CNN rice pore size Recall:
rice detection = 0.9510Precision:
rice detection = 0.9510IoU:
rice pore size = 0.8770did not report performance on wheat
Toda, Y., Toh, S., Bourdais, G., Robatzek, S., Maclean, D., & Kinoshita, T. (2018). DeepStomata: Facial Recognition Technology for Automated Stomatal Aperture Measurement [Preprint]. Bioinformatics. https://doi.org/10.1101/365098 HOG, CNN dayflower open/partially open/closed
SD
pore size
Precision:
open state classification = 92.4%
partially open state classification = 96.2%
closed state classification = 86.7%
SD = 0.954Recall:
open state classification = 97.5%
partially open state classification = 86.3%
closed state classification = 95.0%
SD = 0.940R2:
pore length = 0.98215
Zhu, J., Yu, Q., Xu, C., Li, J., & Qin, G. (2018). Rapid Estimation of Stomatal Density and Stomatal Area of Plant Leaves Based on Object-Oriented Classification and Its Ecological Trade-Off Strategy Analysis. Forests, 9(10), 616. https://doi.org/10.3390/f9100616 Object-Oriented Classification Fraxinus pennsylvanica, Ailanthus altissima, Sophora japonica SD, SCA Accuracy:
SD = 99.2-100%
SCA = 94.5-97.5%
Bhugra, S., Mishra, D., Anupama, A., Chaudhury, S., Lall, B., Chugh, A., & Chinnusamy, V. (2019). Deep Convolutional Neural Networks Based Framework for Estimation of Stomata Density and Structure from Microscopic Images. In L. Leal-Taixé & S. Roth (Eds.), Computer Vision – ECCV 2018 Workshops (Vol. 11134, pp. 412–423). Springer International Publishing. https://doi.org/10.1007/978-3-030-11024-6_31 F-CNN rice SD
pore size
Recall:
SD = 0.89Precision:
SD = 0.91IoU:
pore size = 0.8602Correlation:
pore length = 0.95
pore width = 0.91
Casado-García, Á., Domínguez, C., García-Domínguez, M., Heras, J., Inés, A., Mata, E., & Pascual, V. (2019). CLoDSA: A tool for augmentation in classification, localization, detection, semantic segmentation and instance segmentation tasks. BMC Bioinformatics, 20(1), 323. https://doi.org/10.1186/s12859-019-2931-1 YOLOv3 SD Precision
D1 = 0.97
D2 = 0.97
D3 = 0.95
D4 = 0.99
Fetter, K. C., Eberhardt, S., Barclay, R. S., Wing, S., & Keller, S. R. (2019). StomataCounter: A neural network for automatic stomata identification and counting. New Phytologist, 223(3), 1671–1681. https://doi.org/10.1111/nph.15892 DCNN 600 species, ginkgo, balsam poplar, 130 species SD Accuracy:
ginkgo on ginkgo = 97.4%
ginkgo on combined dataset = 76%
combined on combined = 94.2%
combined on ginkgo = 98.1%
Li, K., Huang, J., Song, W., Wang, J., Lv, S., & Wang, X. (2019). Automatic segmentation and measurement methods of living stomata of plants based on the CV model. Plant Methods, 15(1), 67. https://doi.org/10.1186/s13007-019-0453-5 Faster-RCNN, Chan-Vese Model (CV) black poplar, Chinese necklace poplar pore size Accuracy:
poplar traits = 93-99%Recall:
poplar on poplar = 98.2%
poplar on dayflower = 86.31%Precision:
poplar on poplar = 100%
poplar on dayflower = 83.59
Sakoda, K., Watanabe, T., Sukemura, S., Kobayashi, S., Nagasaki, Y., Tanaka, Y., & Shiraiwa, T. (2019). Genetic Diversity in Stomatal Density among Soybeans Elucidated Using High-throughput Technique Based on an Algorithm for Object Detection. Scientific Reports, 9(1), 7610. https://doi.org/10.1038/s41598-019-44127-0 Single-Shot Multibox Detector (SSD) soybean SD R2:
greenhouse on greenhouse = 0.90
greenhouse on field = 0.43
joint model on both = 0.89RMSE:
greenhouse on greenhouse = 8.47
greenhouse on field = 98.11
joint model on both = 12.02
Andayani, U., Sumantri, I. B., Pahala, A., & Muchtar, M. A. (2020). The Implementation of Deep Learning Using Convolutional Neural Network to Classify Based on Stomata Microscopic Image of Curcuma Herbal Plants. IOP Conference Series: Materials Science and Engineering, 851(1), 012035. https://doi.org/10.1088/1757-899X/851/1/012035 CNN turmeric, ginger species Accuracy:
classification = 0.925
Casado-García, Á., del-Canto, A., Sanz-Saez, A., Pérez-López, U., Bilbao-Kareaga, A., Fritschi, F. B., Miranda-Apodaca, J., Muñoz-Rueda, A., Sillero-Martínez, A., Yoldi-Achalandabaso, A., Lacuesta, M., & Heras, J. (2020). LabelStoma: A tool for stomata detection based on the YOLO algorithm. Computers and Electronics in Agriculture, 178, 105751. https://doi.org/10.1016/j.compag.2020.105751 YOLOv3 common bean, soybean, barley, grapevine SD F1-score:
soybean on soybean = 0.93
bean on bean = 0.96
barley on barley = 0.91soybean on barley = 0.36
barley on soybean = 0.05combined on combined = 0.93combined on grapevine = 0.85
combined + transfer learning to grapevine on grapevine = 0.91
Meeus, S., Van Den Bulcke, J., & Wyffels, F. (2020). From leaf to label: A robust automated workflow for stomata detection. Ecology and Evolution, 10(17), 9178–9191. https://doi.org/10.1002/ece3.6571 DCNN 19 tropical African timber tree species SD Precision:
trained species SD = 0.75-0.89
novel species SD = 0.53 – 0.77Recall:
trained species SD = 0.57-0.91
novel species SD = 0.63-0.94F1-score:
trained species SD = 0.64-0.89
novel species SD = 0.57-0.80
Millstead, L., Jayakody, H., Patel, H., Kaura, V., Petrie, P. R., Tomasetig, F., & Whitty, M. (2020). Accelerating Automated Stomata Analysis Through Simplified Sample Collection and Imaging Techniques. Frontiers in Plant Science, 11, 580389. https://doi.org/10.3389/fpls.2020.580389 CNN Citrus sinensis L., Prunus armeniaca, Vitis vinifera L. x V. rupestris, Vinca major L. SD
pore size
F1-score:
average all species SD = 0.817Precision:
average all species SD = 0.778Recall:
average all species SD = 0.865Accuracy:
pore size = 73.72%
Song, W., Li, J., Li, K., Chen, J., & Huang, J. (2020). An Automatic Method for Stomatal Pore Detection and Measurement in Microscope Images of Plant Leaf Based on a Convolutional Neural Network Model. Forests, 11(9), 954. https://doi.org/10.3390/f11090954 Mask R-CNN black poplar, balsam poplar, ginkgo SD
pore size, degree of pore opening
Accuracy:
black poplar pore length = 94.66%
black poplar pore width = 93.54%
black poplar degree of pore opening = 92.95%Precision:
black poplar on black poplar SD = 96.87%
black poplar on balsam poplar SD = 12.4%
black poplar on ginkgo SD = 64.6%
transfer learning to balsam poplar SD = 76.5%
transfer learning to ginkgo SD = 84.7%Recall:
black poplar on black poplar SD = 96.72%
black poplar on balsam poplar SD = 7.2%
black poplar on ginkgo SD = 32.4%
transfer learning to balsam poplar SD = 80%
transfer learning to ginkgo SD = 69%
Aono, A. H., Nagai, J. S., Dickel, G. D. S. M., Marinho, R. C., De Oliveira, P. E. A. M., Papa, J. P., & Faria, F. A. (2021). A stomata classification and detection system in microscope images of maize cultivars. PLOS ONE, 16(10), e0258679. https://doi.org/10.1371/journal.pone.0258679 HOG, DCNN maize SD Accuracy:
average of all models = 97.1%
Bheemanahalli, R., Wang, C., Bashir, E., Chiluwal, A., Pokharel, M., Perumal, R., Moghimi, N., Ostmeyer, T., Caragea, D., & Jagadish, S. V. K. (2021). Classical phenotyping and deep learning concur on genetic control of stomatal density and area in sorghum. Plant Physiology, 186(3), 1562–1579. https://doi.org/10.1093/plphys/kiab174 Mask R-CNN sorghum SD, SCA R2:
sorghum SD ab = 0.96
sorghum SD ad = 0.965
sorghum SCA ab = 0.91
sorghum SCA ad = 0.90
Costa, L., Archer, L., Ampatzidis, Y., Casteluci, L., Caurin, G. A. P., & Albrecht, U. (2021). Determining leaf stomatal properties in citrus trees utilizing machine vision and artificial intelligence. Precision Agriculture, 22(4), 1107–1119. https://doi.org/10.1007/s11119-020-09771-x Mask R-CNN sweet orange tree SD, SCA, open/closed Precision:
Orange tree open stomata = 99.2%
Orange tree closed stomata = 97.2%Recall:
Orange tree open stomata = 96.7%
Orange tree closed stomata = 90.0%Did not report performance for SCA
Ferguson, J. N., Fernandes, S. B., Monier, B., Miller, N. D., Allen, D., Dmitrieva, A., Schmuker, P., Lozano, R., Valluru, R., Buckler, E. S., Gore, M. A., Brown, P. J., Spalding, E. P., & Leakey, A. D. B. (2021). Machine learning-enabled phenotyping for GWAS and TWAS of WUE traits in 869 field-grown sorghum accessions. Plant Physiology, 187(3), 1481‚Äì1500. https://doi.org/10.1093/plphys/kiab346 “nine different machine learning methods. The nine methods were: An Artificial Neural Network, Linear Discriminant Analysis, a Convolution Neural Network, three Generalized Linear models, two Regularization (Ridge and Lasso), and one without, Partial Least Squares Regression, Stepwise Linear Regression, and a Decision Tree” sorghum SD R2 = 0.72
Gibbs, J. A., Mcausland, L., Robles-Zazueta, C. A., Murchie, E. H., & Burgess, A. J. (2021). A Deep Learning Method for Fully Automatic Stomatal Morphometry and Maximal Conductance Estimation. Frontiers in Plant Science, 12, 780180. https://doi.org/10.3389/fpls.2021.780180 DL wheat, balsam poplar SD
guard cell size
pore size
gsmax (calculated from guard cell size and pore size)
Accuracy:
wheat SD = 100%
balsam poplar SD = 100%R2:
wheat gsmax = 0.9661
balsam poplar gsmax = 0.9782
Jayakody, H., Petrie, P., Boer, H. J. D., & Whitty, M. (2021). A generalised approach for high-throughput instance segmentation of stomata in microscope images. Plant Methods, 17(1), 27. https://doi.org/10.1186/s13007-021-00727-4 Mask R-CNN gymnosperms, Ginkgo, balsam poplar, collection of other species SD Precision:
Species in training SD = 96-99%
Species partially in training SD = 92-98%
species not in training SD = 78-97%Recall:
Species in training SD = 92-98%
Species partially in training SD = 71-89%
species not in training SD = 51-86%
Kwong, Q. B., Wong, Y. C., Lee, P. L., Sahaini, M. S., Kon, Y. T., Kulaveerasingam, H., & Appleton, D. R. (2021). Automated stomata detection in oil palm with convolutional neural network. Scientific Reports, 11(1), 15210. https://doi.org/10.1038/s41598-021-94705-4 Single-Shot Multibox Detector (SSD) oil palm SD, SCL Precision:
young SD  = 98.00%
juvenile SD = 99.70%
adult SD = 99.55%Recall:
young SD =. 99.50%
juvenile SD = 97.65%
adult SD = 99.62%performance on stomatal size not reported
Razzaq, A., Shahid, S., Akram, M., Ashraf, M., Iqbal, S., Hussain, A., Azam Zia, M., Qadri, S., Saher, N., Shahzad, F., et al. (2021). Stomatal State Identification and Classification in Quinoa Microscopic Imprints through Deep Learning. Complexity, 2021, 1–9. https://doi.org/10.1155/2021/9938013 Single-Shot Multibox Detector (SSD) quinoa open/closed
SD, SCL, SCW, SCA
pore size
Accuracy:
quinoa open/closed state = 97.6%
quinoa SCL = 95.6%
quinoa SCW = 96.7%
quinoa SCA = 94.54%
quinoa pore size = 96.21%Precision:
quinoa SD = 98.6%Recall:
quinoa SD = 97.87%
Sultana, S. N., Park, H., Choi, S. H., Jo, H., Song, J. T., Lee, J.-D., & Kang, Y. J. (2021). Optimizing the Experimental Method for Stomata-Profiling Automation of Soybean Leaves Based on Deep Learning. Plants, 10(12), 2714. https://doi.org/10.3390/plants10122714 YOLOv3, YOLOv4, YOLOv5 soybean SD Accuracy:
soybea SD = 98.0%Precision:
soybean SD = 95.1%Recall:
soybean SD = 96.6%
Sun, Z., Song, Y., Li, Q., Cai, J., Wang, X., Zhou, Q., Huang, M., & Jiang, D. (2021). An Integrated Method for Tracking and Monitoring Stomata Dynamics from Microscope Videos. Plant Phenomics, 2021, 2021/9835961. https://doi.org/10.34133/2021/9835961 DL wheat pore size mean pixel accuracy (MPA):
pore size = 0.8305
Toda, Y., Toh, S., Bourdais, G., Robatzek, S., Maclean, D., & Kinoshita, T. (2018). DeepStomata: Facial Recognition Technology for Automated Stomatal Aperture Measurement [Preprint]. Bioinformatics. https://doi.org/10.1101/365098 DL wheat SD, SCL, SCW Error Rate:
SD ab = 3.70%
SD ad = 2.84%Pearson Correlation Coefficient:
SCL = 0.920
SCW = 0.737
Xie, J., Fernandes, S. B., Mayfield-Jones, D., Erice, G., Choi, M., E Lipka, A., & Leakey, A. D. B. (2021). Optical topometry and machine learning to rapidly phenotype stomatal patterning traits for maize QTL mapping. Plant Physiology, 187(3), 1462–1480. https://doi.org/10.1093/plphys/kiab299 Mask R-CNN maize SD, SCL, SCW, SCA, SI
PCD, PCA
R2:
SD – 0.97
PCD = 0.96
SCL = 0.81
SCW – 0.54
SCA = 0.71
Yang, X., Xi, Z., Li, J., Feng, X., Zhu, X., Guo, S., & Song, C. (2021). Deep Transfer Learning-Based Multi-Object Detection for Plant Stomata Phenotypic Traits Intelligent Recognition. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 1–1. https://doi.org/10.1109/TCBB.2021.3137810 HOG, SSD, Faster R-CNN, YOLOv3, YOLOv4 maize SD, SCL, SCW Precision:
maize on maize SD = 99.1%
maize on wheat SD = 94.3%Recall:
maize on maize SD = 95.3%
maize on wheat SD = 90.6%
Zhu, C., Hu, Y., Mao, H., Li, S., Li, F., Zhao, C., Luo, L., Liu, W., & Yuan, X. (2021). A Deep Learning-Based Method for Automatic Assessment of Stomatal Index in Wheat Microscopic Images of Leaf Epidermis. Frontiers in Plant Science, 12, 716784. https://doi.org/10.3389/fpls.2021.716784 Faster-RCNN wheat SD, SI
PCD
Accuracy:
wheat on wheat SD = 98.03%
wheat on wheat SI = 95.35%
wheat on wheat PCD = 95.03%
transfer learning on 31 families SD = 94.36%
transfer learning on 31 families SI =  89.38%
transfer learning on 31 families PCD = 91.13%
Davaasuren, D., Chen, Y., Jaafar, L., Marshall, R., Dunham, A. L., Anderson, C. T., & Wang, J. Z. (2022). Automated 3D segmentation of guard cells enables volumetric analysis of stomatal biomechanics. Patterns, 3(12), 100627. https://doi.org/10.1016/j.patter.2022.100627 arabidopsis SCW, SCL
guard cell volume
R2:
SCW = 0.89
SCL = 0.81
guard cell volume = 0.87
Liang, X., Xu, X., Wang, Z., He, L., Zhang, K., Liang, B., Ye, J., Shi, J., Wu, X., Dai, M., & Yang, W. (2022). StomataScorer: A portable and high‐throughput leaf stomata trait scorer combined with deep learning and an improved CV model. Plant Biotechnology Journal, 20(3), 577–591. https://doi.org/10.1111/pbi.13741 Faster-RCNN, Chan-Vese Model (CV) maize open/closed
SD
pore size
Precision:
Maize SD with TipScope = 1.00
Maize SD with ProScope = 1.00Recall:
Maize SD with TipScope = 0.99
Maize SD with ProScope = 0.97R2:
Maize all pore traits = 0.85-0.96
Maize number of open stomata = 0.99
Maize number of closed stomata = 0.98Did not quantitatively report performance on the 9 other species, just showed images
Li, S., Li, L., Fan, W., Ma, S., Zhang, C., Kim, J. C., Wang, K., Russinova, E., Zhu, Y., & Zhou, Y. (2022). LeafNet: A tool for segmenting and quantifying stomata and pavement cells. The Plant Cell, 34(4), 1171–1188. https://doi.org/10.1093/plcell/koac021 arabidopsis, collection of 600+ species SD, SCL, SCW
28 PC traits
Precision:
Arabidopsis bright-field model on Arabidopsis bright-field SD= 96.3%
Arabidopsis bright-field model on N. tabacum bright-field SD = 90.4%
Arabidopsis transfer learning confocal model SD = 97.4%Recall:
Arabidopsis SD bright field = 98.1%
N. tabacum SD bright field = 94.9%
Arabidopsis SD confocal = 97.4%Average Precision:
Universal SD = 86.6%F1-score:
Universal pavement cell model = 0.74Segmentation Quality (combines TP, IoU, defined in paper):
Arabidopsis bright-field model on Arabidopsis bright-field PC= 88.6%
Arabidopsis bright-field model on N. tabacum bright-field PC = 94.6%
Arabidopsis transfer learning confocal model PC = 93.4%
Ott, T., & Lautenschlager, U. (2022). GinJinn2: Object detection and segmentation for ecology and evolution. Methods in Ecology and Evolution, 13(3), 603–610. https://doi.org/10.1111/2041-210X.13787 GinJinn2 (based on Detectron2) SD Average Precision:
SD = 51.32
Zhang, F., Ren, F., Li, J., & Zhang, X. (2022). Automatic stomata recognition and measurement based on improved YOLO deep learning model and entropy rate superpixel algorithm. Ecological Informatics, 68, 101521. https://doi.org/10.1016/j.ecoinf.2021.101521 MSER, COD, YOLOv3, YOLOv5, Faster R-CNN maize SD, SCL, SCW Precision:
Maize SD = 0.95Recall:
Maize SD = 0.98F1-score:
Maize SD = 0.97R2:
Maize SCL = 0.8281
Maize SCW = 0.7921
Dey, B., Ahmed, R., Ferdous, J., Haque, M. M. U., Khatun, R., Hasan, F. E., & Uddin, S. N. (2023). Automated plant species identification from the stomata images using deep neural network: A study of selected mangrove and freshwater swamp forest tree species of Bangladesh. Ecological Informatics, 75, 102128. https://doi.org/10.1016/j.ecoinf.2023.102128 DCNN 9 mangrove and 2 swamp forest tree species species Precision of 9 models range from 0.9371 – 0.9753

Accuracy of 9 models range from 0.9528 – 0.9906

Recall of 9 models range from 0.9305 – 0.9824

Li, X., Guo, S., Gong, L., & Lan, Y. (2023). An automatic plant leaf stoma detection method based on YOLOv5. IET Image Processing, 17(1), 67–76. https://doi.org/10.1049/ipr2.12617 YOLOv5 broad bean open/closed
SD
Precision:
broad bean SD = 0.934
broad bean open state classification = 0.934
broad bean closed state classification = 0.935
broad bean model on wheat SD = 0.894Recall:
broad bean open state classification = 0.934
broad bean open state classification = 0.915
broad bean model on wheat SD = 0.885
Sai, N., Bockman, J. P., Chen, H., Watson‐Haigh, N., Xu, B., Feng, X., Piechatzek, A., Shen, C., & Gilliham, M. (2023). STOMAAI: An efficient and user‐friendly tool for measurement of stomatal pores and density using deep computer vision. New Phytologist, 238(2), 904–915. https://doi.org/10.1111/nph.18765 Mask R-CNN arabidopsis, barley SD
pore size
Concordance Correlation Coefficient:
Arabidopsis SD =  0.969
Arabidopsis pore size = 0.891
Barley SD = 0.992
Barley pore size = 0.984
Sun, Z., Wang, X., Song, Y., Li, Q., Song, J., Cai, J., Zhou, Q., Zhong, Y., Jin, S., & Jiang, D. (2023). StomataTracker: Revealing circadian rhythms of wheat stomata with in-situ video and deep learning. Computers and Electronics in Agriculture, 212, 108120. https://doi.org/10.1016/j.compag.2023.108120 DL wheat open/closed
SD, SCL, SCW, SCA
Average Precision:
SD = 95.84%
open = 0.8988
closed = 0.8886R2:
SD = 0.895
SCL = 0.709
SCW = 0.620
SCA = 0.752

Принятые сокращения:

  • ИИ – искусственный интеллект
  • CNN – сверточная нейронная сеть
  • FN – ложноотрицательный
  • FP – ложноположительный результат
  • DL – глубокое обучение
  • ML – машинное обучение
  • R-CNN – сверточная нейронная сеть на основе регионов
  • SCA – область устьичного комплекса
  • SCL – длина устьичного комплекса
  • SCW – ширина устьичного комплекса
  • SD – плотность устьиц
  • SI – устьичный индекс
  • TN – истинно отрицательный
  • TP – истинно положительный

Литература

  1. Ainsworth EA, Leakey ADB, Ort DR, Long SP. 2008. FACE‐ing the facts: inconsistencies and interdependence among field, chamber and modeling studies of elevated [CO2] impacts on crop yield and food supply. New Phytologist 179, 5–9.
  2. Andayani U, Sumantri IB, Pahala A, Muchtar MA. 2020. The implementation of deep learning using convolutional neural network to classify based on stomata microscopic image of Curcuma herbal plants. IOP Conference Series: Materials Science and Engineering 851, 012035.
  3. Aono AH, Nagai JS, Dickel GDSM, Marinho RC, De Oliveira PEAM, Papa JP, Faria FA. 2021. A stomata classification and detection system in microscope images of maize cultivars. PLoS One 16, e0258679.
  4. Agarwal S, Arora H, Anand S, Arora C. 2020. Contextual diversity for active learning. In: Vedaldi A, Bischof H, Brox T, Frahm JM, eds. Computer vision—ECCV 2020. Lecture Notes in Computer Science, vol. 12361. Cham: Springer, 137–153.
  5. Bai G, Jenkins S, Yuan W, Graef GL, Ge Y. 2018. Field-based scoring of soybean iron deficiency chlorosis using RGB imaging and statistical learning. Frontiers in Plant Science 9, 1002.
  6. Barandela R, Rangel E, Sánchez JS, Ferri FJ. 2003. Restricted decontamination for the imbalanced training sample problem. In: Sanfeliu A, Ruiz-Shulcloper J, eds, Progress in pattern recognition, speech and image analysis. CIARP 2003. Lecture Notes in Computer Science, vol. 2905. Berlin Heidelberg: Springer, 424–431.
  7. Bheemanahalli R, Wang C, Bashir E, Chiluwal A, Pokharel M, Perumal R, Moghimi N, Ostmeyer T, Caragea D, Jagadish SVK. 2021. Classical phenotyping and deep learning concur on genetic control of stomatal density and area in sorghum. Plant Physiology 186, 1562–1579.
  8. Bhugra S, Mishra D, Anupama A, Chaudhury S, Lall B, Chugh A. 2018. Automatic quantification of stomata for high-throughput plant phenotyping. In: 24th International Conference on Pattern Recognition (ICPR). New York: IEEE, 3904–3910.
  9. Biscoe T. 1872. The breathing pores of leaves. The American Naturalist 6, 129–133.
  10. Braybrook SA, Kuhlemeier C. 2010. How a plant builds leaves. The Plant Cell 22, 1006–1018.
  11. Brigham EO, Morrow RE. 1967. The fast Fourier transform. IEEE Spectrum 4, 63–70.
  12. Casado-García A, del-Canto A, Sanz-Saez A, et al. 2020. LabelStoma: a tool for stomata detection based on the YOLO algorithm. Computers and Electronics in Agriculture 178, 105751.
  13. Casado-García A, Domínguez C, García-Domínguez M, Heras J, Inés A, Mata E, Pascual V. 2019. CLoDSA: a tool for augmentation in classification, localization, detection, semantic segmentation and instance segmentation tasks. BMC Bioinformatics 20, 323.
  14. Chaves MM, Maroco JP, Pereira JS. 2003. Understanding plant responses to drought—from genes to the whole plant. Functional Plant Biology 30, 239.
  15. Costa L, Archer L, Ampatzidis Y, Casteluci L, Caurin GAP, Albrecht U. 2021. Determining leaf stomatal properties in citrus trees utilizing machine vision and artificial intelligence. Precision Agriculture 22, 1107–1119.
  16. Cui Y, Jia M, Lin TY, Song Y, Belongie S. 2019. Class-balanced loss based on effective number of samples. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 9268–9277.
  17. Davaasuren D, Chen Y, Jaafar L, Marshall R, Dunham AL, Anderson CT, Wang JZ. 2022. Automated 3D segmentation of guard cells enables volumetric analysis of stomatal biomechanics. Patterns (New York, N.Y.) 3, 100627.
  18. David E, Madec S, Sadeghi-Tehran P, et al. 2020. Global wheat head detection (GWHD) a large and diverse dataset of high-resolution RGB-labelled images to develop and benchmark wheat head detection methods. Plant Phenomics 2020, 3521852.
  19. Dey B, Ahmed R, Ferdous J, Haque MMU, Khatun R, Hasan FE, Uddin SN. 2023. Automated plant species identification from the stomata images using deep neural network: a study of selected mangrove and freshwater swamp forest tree species of Bangladesh. Ecological Informatics 75, 102128.
  20. Duarte KTN, Carvalho MAGD, Martins PS. 2017. Segmenting high-quality digital images of stomata using the wavelet spot detection and the watershed transform. In: Proceedings of the 12th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications, Porto, Portugal, 540–547.
  21. Dutta T, Singh A, Biswas S. 2020. Adaptive margin diversity regularizer for handling data imbalance in zero-shot SBIR. In: Vedaldi A, Bischof H, Brox T, Frahm J-M, eds. Computer vision—ECCV 2020. Lecture Notes in Computer Science, vol. 12350. Cham: Springer International Publishing, 349–364.
  22. Ellison EE, Nagalakshmi U, Gamo ME, Huang P, Dinesh-Kumar S, Voytas DF. 2020. Multiplexed heritable gene editing using RNA viruses and mobile single guide RNAs. Nature Plants 6, 620–624.
  23. Ferguson JN, Fernandes SB, Monier B, et al. 2021. Machine learning-enabled phenotyping for GWAS and TWAS of WUE traits in 869 field-grown sorghum accessions. Plant Physiology 187, 1481–1500.
  24. Ferguson JN, Schmuker P, Dmitrieva A, et al. 2024. Reducing stomatal density by expression of a synthetic epidermal patterning factor increases leaf intrinsic water use efficiency and reduces plant water use in a C4 crop. Journal of Experimental Botany 75, doi: 10.1093/jxb/erae289
  25. Fetter KC, Eberhardt S, Barclay RS, Wing S, Keller SR. 2019. StomataCounter: a neural network for automatic stomata identification and counting. New Phytologist 223, 1671–1681.
  26. Franks PJ, Drake PL, Beerling DJ. 2009. Plasticity in maximum stomatal conductance constrained by negative correlation between stomatal size and density: an analysis using Eucalyptus globulus. Plant, Cell & Environment 32, 1737–1748.
  27. Franks PJ, Farquhar GD. 2007. The mechanical diversity of stomata and its significance in gas-exchange control. Plant Physiology 143, 78–87.
  28. Freeling M. 1992. A conceptual framework for maize leaf development. Developmental Biology 153, 44–58.
  29. Gibbs JA, Mcausland L, Robles-Zazueta CA, Murchie EH, Burgess AJ. 2021. A deep learning method for fully automatic stomatal morphometry and maximal conductance estimation. Frontiers in Plant Science 12, 780180.
  30. Girshick R. 2015. Fast R-CNN. In: 2015 IEEE International Conference on Computer Vision (ICCV). New York: IEEE, 1440–1448.
  31. Girshick R, Donahue J, Darrell T, Malik J. 2014. Rich feature hierarchies for accurate object detection and semantic segmentation. In: 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, OH, USA, 580–587.
  32. Goodfellow I, Bengio Y, Courville A. 2016. Deep learning. Cambridge, MA: The MIT Press.
  33. Grinblat GL, Uzal LC, Larese MG, Granitto PM. 2016. Deep learning for plant identification using vein morphological patterns. Computers and Electronics in Agriculture 127, 418–424.
  34. Haus MJ, Kelsch RD, Jacobs TW. 2015. Application of optical topometry to analysis of the plant epidermis. Plant Physiology 169, 946–959.
  35. Hayat M, Khan S, Zamir SW, Shen J, Shao L. 2019. Gaussian affinity for max-margin class imbalanced learning. In: 2019 IEEE/CVF International Conference on Computer Vision (ICCV). New York: IEEE, 6468–6478.
  36. He K, Gkioxari G, Dollar P, Girshick R. 2017. Mask R-CNN. In: 2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE, 2980–2988.
  37. Hetherington AM, Woodward FI. 2003. The role of stomata in sensing and driving environmental change. Nature 424, 901–908.
  38. Jayakody H, Liu S, Whitty M, Petrie P. 2017. Microscope image based fully automated stomata detection and pore measurement method for grapevines. Plant Methods 13, 94.
  39. Jayakody H, Petrie P, de Boer HJ, Whitty M. 2021. A generalised approach for high-throughput instance segmentation of stomata in microscope images. Plant Methods 17, 27.
  40. Karabourniotis G. 2001. Epicuticular phenolics over guard cells: exploitation for in situ stomatal counting by fluorescence microscopy and combined image analysis. Annals of Botany 87, 631–639.
  41. Kirillov A, Mintun E, Ravi N, et al. 2023. Segment anything. In: 2023 IEEE/CVF International Conference on Computer Vision (ICCV). New York: IEEE, 3992–4003.
  42. Kwong QB, Wong YC, Lee PL, Sahaini MS, Kon YT, Kulaveerasingam H, Appleton DR. 2021. Automated stomata detection in oil palm with convolutional neural network. Scientific Reports 11, 15210.
  43. Laga H, Shahinnia F, Fleury D. 2014. Image-based plant stomata phenotyping. In: 2014 13th International Conference on Control Automation Robotics & Vision (ICARCV). New York: IEEE, 217–222.
  44. Leakey ADB, Ferguson JN, Pignon CP, Wu A, Jin Z, Hammer GL, Lobell DB. 2019. Water use efficiency as a constraint and target for improving the resilience and productivity of C3 and C4 crops. Annual Review of Plant Biology 70, 781–808.
  45. Lee S, Kim H, Ishikawa M, Higuchi H. 2019. 3D nanoscale tracking data analysis for intracellular organelle movement using machine learning approach. In: 2019 International Conference on Artificial Intelligence in Information and Communication (ICAIIC). New York: IEEE, 181–184.
  46. Li K, Huang J, Song W, Wang J, Lv S, Wang X. 2019. Automatic segmentation and measurement methods of living stomata of plants based on the CV model. Plant Methods 15, 67.
  47. Li S, Li L, Fan W, Ma S, Zhang C, Kim JC, Wang K, Russinova E, Zhu Y, Zhou Y. 2022. LeafNet: a tool for segmenting and quantifying stomata and pavement cells. The Plant Cell 34, 1171–1188.
  48. Li X, Guo S, Gong L, Lan Y. 2023. An automatic plant leaf stoma detection method based on YOLOv5. IET Image Processing 17, 67–76.
  49. Liang X, Xu X, Wang Z, et al. 2022. StomataScorer: a portable and high‐throughput leaf stomata trait scorer combined with deep learning and an improved CV model. Plant Biotechnology Journal 20, 577–591.
  50. Lin T-Y, Goyal P, Girshick R, He K, Dollár P. 2017. Focal loss for dense object detection. IEEE Transactions on Pattern Analysis and Machine Intelligence 42, 318–327.
  51. Liu S, Tang J, Petrie P, Whitty M. 2016. A fast method to measure stomatal aperture by MSER on smart mobile phone. In: Imaging and Applied Optics 2016, AIW2B.2.
  52. Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C-Y, Berg AC. 2015. SSD: single shot multibox detector. In: Computer Vision—ECCV 2016. Lecture Notes in Computer Science, vol. 9905. Cham: Springer, 21–37.
  53. Lunn D, Kannan B, Germon A, Leverett A, Clemente TE, Altpeter F, Leakey ADB, Lunn J. 2024. Greater aperture counteracts effects of reduced stomatal density on water use efficiency: a case study on sugarcane and meta-analysis. Journal of Experimental Botany 75, 6837–6849. doi: 10.1093/jxb/erae271.
  54. Ma J, He Y, Li F, Han L, You C, Wang B. 2024. Segment anything in medical images. Nature Communications 15, 654.
  55. Meeus S, Van Den Bulcke J, Wyffels F. 2020. From leaf to label: a robust automated workflow for stomata detection. Ecology and Evolution 10, 9178–9191.
  56. Melotto M, Underwood W, He SY. 2008. Role of stomata in plant innate immunity and foliar bacterial diseases. Annual Review of Phytopathology 46, 101–122.
  57. Mohanty SP, Hughes DP, Salathé M. 2016. Using deep learning for image-based plant disease detection. Frontiers in Plant Science 7, 1419.
  58. Ott T, Lautenschlager U. 2022. GinJinn2: object detection and segmentation for ecology and evolution. Methods in Ecology and Evolution 13, 603–610.
  59. Pillitteri LJ, Torii KU. 2012. Mechanisms of stomatal development. Annual Review of Plant Biology 63, 591–614.
  60. Prakash PT, Banan D, Paul RE, Feldman MJ, Xie D, Freyfogle L, Baxter I, Leakey ADB. 2021. Correlation and co-localization of QTL for stomatal density, canopy temperature, and productivity with and without drought stress in Setaria. Journal of Experimental Botany 72, 5024–5037.
  61. Razzaq A, Shahid S, Akram M, et al. 2021. Stomatal state identification and classification in quinoa microscopic imprints through deep learning. Complexity 2021, 1–9.
  62. Redmon J, Divvala S, Girshick R, Farhadi A. 2016. You only look once: unified, real-time object detection. In: Proceedings, 29th IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 779–788.
  63. Ren S, He K, Girshick R, Sun J. 2017. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence 28, 1137–1149.
  64. Roerdink JBTM, Meijster A. 2000. The watershed transform: definitions, algorithms and parallelization strategies. Fundamenta Informaticae 41, 187–228.
  65. Sai N, Bockman JP, Chen H, Watson‐Haigh N, Xu B, Feng X, Piechatzek A, Shen C, Gilliham M. 2023. STOMAAI: an efficient and user‐friendly tool for measurement of stomatal pores and density using deep computer vision. New Phytologist 238, 904–915.
  66. Sakoda K, Watanabe T, Sukemura S, Kobayashi S, Nagasaki Y, Tanaka Y, Shiraiwa T. 2019. Genetic diversity in stomatal density among soybeans elucidated using high-throughput technique based on an algorithm for object detection. Scientific Reports 9, 7610.
  67. Sanyal P, Bhattacharya U, Bandyopadhyay SK. 2008. Analysis of SEM images of stomata of different tomato cultivars based on morphological features. In: 2008 Second Asia International Conference on Modelling & Simulation (AMS), 890–894.
  68. Saponaro P, Treible W, Kolagunda A, Chaya T, Caplan J, Kambhamettu C, Wisser R. 2017. DeepXScope: segmenting microscopy images with a deep neural network. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). New York: IEEE, 843–850.
  69. Shalev-Shwartz S, Ben-David S. 2014. Understanding machine learning: from theory to algorithms. Cambridge, UK: Cambridge University Press.
  70. Song G, Wang Q. 2023. Species classification from hyperspectral leaf information using machine learning approaches. Ecological Informatics 76, 102141.
  71. Song W, Li J, Li K, Chen J, Huang J. 2020. An automatic method for stomatal pore detection and measurement in microscope images of plant leaf based on a convolutional neural network model. Forests 11, 954.
  72. Stringer C, Wang T, Michaelos M, Pachitariu M. 2021. Cellpose: a generalist algorithm for cellular segmentation. Nature Methods 18, 100–106.
  73. Sultana SN, Park H, Choi SH, Jo H, Song JT, Lee J-D, Kang YJ. 2021. Optimizing the experimental method for stomata-profiling automation of soybean leaves based on deep learning. Plants (Basel, Switzerland) 10, 2714.
  74. Thompson NC, Greenewald K, Lee K, Manso GF. 2020. The computational limits of deep learning. MIT initiative on the digital economy research brief, vol. 4. Cambridge, MA: MIT Press.
  75. Toda Y, Toh S, Bourdais G, Robatzek S, Maclean D, Kinoshita T. 2018. DeepStomata: facial recognition technology for automated stomatal aperture measurement. bioRxiv doi: 10.1101/365098 [Preprint].
  76. Viswanatha V, Chandana RK, Ramachandra AC. 2022. IoT based smart mirror using raspberry Pi 4 and YOLO algorithm: a novel framework for interactive display. Indian Journal of Science and Technology 15, 2011–2020.
  77. Vőfély RV, Gallagher J, Pisano GD, Bartlett M, Braybrook SA. 2019. Of puzzles and pavements: a quantitative exploration of leaf epidermal cell shape. New Phytologist 221, 540–552.
  78. Wang H, Fu T, Du Y, et al. 2023. Scientific discovery in the age of artificial intelligence. Nature 620, 47–60.
  79. Weber M, Wald T, Zollner JM. 2021. Temporal feature networks for CNN based object detection. In: 2021 IEEE Intelligent Vehicles Symposium (IV). New York: IEEE, 1478–1484.
  80. Willmer C, Fricker M. 1996. Stomata, (2) nd edn. Dordrecht: Springer.
  81. Xian Y, Lorenz T, Schiele B, Akata Z. 2018. Feature generating networks for zero-shot learning. In: 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 5542–5551.
  82. Xie J, Fernandes SB, Mayfield-Jones D, Erice G, Choi M, E Lipka A, Leakey ADB. 2021. Optical topometry and machine learning to rapidly phenotype stomatal patterning traits for maize QTL mapping. Plant Physiology 187, 1462–1480.
  83. Yang X, Xi Z, Li J, Feng X, Zhu X, Guo S, Song C. 2021. Deep transfer learning-based multi-object detection for plant stomata phenotypic traits intelligent recognition. IEEE/ACM Transactions on Computational Biology and Bioinformatics 20, 321–329.
  84. Zhang F, Ren F, Li J, Zhang X. 2022. Automatic stomata recognition and measurement based on improved YOLO deep learning model and entropy rate superpixel algorithm. Ecological Informatics 68, 101521.
  85. Zhang J, Shen F, Liu L, Zhu F, Yu M, Shao L, Shen HT, Van Gool L. 2018. Generative domain-migration hashing for sketch-to-image retrieval. In: Ferrari V, Hebert M, Sminchisescu C, Weiss Y, eds. Computer vision–ECCV 2018. Lecture Notes in Computer Science, vol. 11206. Cham: Springer, 304–321.
  86. Zhang X-M, Liang L, Liu L, Tang M-J. 2021. Graph neural networks and their current applications in bioinformatics. Frontiers in Genetics 12, 690049.
  87. Zhou J, Fu X, Zhou S, Zhou J, Ye H, Nguyen HT. 2019. Automated segmentation of soybean plants from 3D point cloud using machine learning. Computers and Electronics in Agriculture 162, 143–153.
  88. Zhu C, Hu Y, Mao H, Li S, Li F, Zhao C, Luo L, Liu W, Yuan X. 2021. A deep learning-based method for automatic assessment of stomatal index in wheat microscopic images of leaf epidermis. Frontiers in Plant Science 12, 716784.

Авторы: Grace D Tan, Ushasi Chaudhuri, Sebastian Varela, Narendra Ahuja, Andrew D B Leakey