Искусственный интеллект (ИИ) – это термин, охватывающий компьютерные технологии, предназначенные для решения задач, требующих интеллектуальных способностей человека. Примерами таких задач являются распознавание речи и изображений.
Большинство современных медицинских продуктов, использующих ИИ, основаны на машинном обучении – отрасли информатики и статистики, которая создает прогнозные или описательные модели путем обучения на данных, а не путем программирования жестких правил. Машинное обучение широко применяется в патоморфологии, радиологии, геномике и анализе данных электронных медицинских карт.
Учитывая тенденцию к интеграции ИИ в медицину, можно предположить, что эти технологии будут все более активно использоваться как в исследовательской, так и в практической деятельности, включая гематологию.
В настоящем обзоре дается описание ключевых терминов и основных концепций ИИ и машинного обучения, а также приводятся примеры их применения в работе врача-гематолога.
Искусственный интеллект: терминология и базовые понятия
Искусственный интеллект (ИИ) – это широкое понятие, охватывающее компьютерные технологии, предназначенные для решения задач, требующих интеллектуальных способностей человека, таких как распознавание речи или изображений [1]. В сфере здравоохранения подобные задачи приобретают особую актуальность.
Растущий объем медицинских данных создает проблему перегрузки информацией: размеры и сложность генерируемой информации превышают возможности manusia для ее анализа.
Большинство технологий ИИ, применяемых в медицине, основано на машинном обучении (МО) [2]. МО – это область информатики и статистики, являющаяся разновидностью ИИ, и служит для создания программных продуктов на основе анализа данных.
Термин “машинное обучение” относится к любому компьютерному алгоритму, который вместо использования заранее заданных правил для решения конкретной задачи, опирается на анализ исходных данных с помощью различных математических преобразований. В результате получается алгоритм, часто использующий нетривиальную логику, способный решать поставленную задачу с определенной степенью эффективности.
Применение машинного обучения: от данных к практическому применению
Программные решения, созданные с использованием методов машинного обучения (МО), базируются на анализе разнообразных типов данных, которые могут использоваться как по отдельности, так и в комбинации друг с другом. Уровень предварительной обработки данных определяется применяемой математической моделью (см. рис. 1).

Рис. 1. Виды искусственного интеллекта и машинного обучения
Выбор данных для анализа, как правило, осуществляется до разработки модели МО. Это влечет за собой ряд задач: поиск и структурирование потенциально полезной информации, а также удаление нерелевантных данных. Данные задачи могут решаться как вручную с опорой на знания в предметной области (например, исследователь целенаправленно выбирает параметры общего анализа крови и миелограммы для диагностики гематологических заболеваний), так и алгоритмически с помощью вспомогательных алгоритмов, которые удаляют избыточные параметры или сокращают их количество путем объединения (снижения размерности). Также возможен эмпирический подход, когда данные подбираются и изменяются в ходе обучения модели МО.
Модель изначально создается на тренировочном (обучающем) наборе данных, который используется для настройки (оптимизации параметров) модели. После создания модели применяется тестовая (контрольная) выборка для оценки качества построенной модели. Этот процесс может многократно повторяться с целью поиска наиболее качественной модели – метод кросс-валидации. На заключительном этапе осуществляется валидация на проверочном наборе данных, и из нескольких построенных моделей выбирается наилучшая, соответствующая желаемым критериям точности.

Рис. 2. Этапы создания искусственного интеллекта с использо- ванием технологий машинного обучения (цит. по [2]) AUC — площадь под кривой; ЛИС — лабораторная информаци- онная система; МИС — медицинская информационная система; МО — машинное обучение.
Для практического применения выбранной модели необходимо выполнить ряд дополнительных шагов:
- описание принципов работы и прогнозов модели для пользователя;
- внешняя валидация (экспертная проверка) на сторонних данных;
- реализация модели в виде удобного для практического использования продукта, например, в виде интернет-сайта или интеграции в медицинскую (МИС) либо лабораторную (ЛИС) информационную систему (см. рис. 2) [2].
Модели машинного обучения (МО) можно классифицировать на контролируемые и неконтролируемые.
Контролируемые модели (обучение с учителем) строятся на основе сравнения прогнозов с известными результатами. Процесс обучения итеративно корректируется, чтобы обеспечить соответствие получаемых прогнозов заранее размеченной выборке.
Неконтролируемые модели (обучение без учителя) обучаются на неразмеченных данных. Например, при анализе данных пациентов с неизвестным диагнозом компьютерный алгоритм самостоятельно идентифицирует схожие паттерны, такие как профиль экспрессии генов, лабораторные параметры или симптомы, и группирует их в кластеры (кластерный анализ). Полученные кластеры требуют последующей экспертной оценки специалистами для установления значимости или ложности результатов.
Существует также тип МО с подкреплением (reinforcement learning). При обучении с подкреплением алгоритмы модифицируются в реальном времени в зависимости от положительного или отрицательного результата их работы. Такая программа адаптируется к изменяющимся условиям для достижения желаемого результата.
Например, системой с подкреплением может быть система контроля уровня гликемии у пациентов с сахарным диабетом, получающих непрерывную инсулинотерапию.
Нейронные сети и глубокое обучение: кратко о главном
В области машинного обучения (МО) существует множество методов, включая нейронные сети и глубокое обучение. Глубокое обучение представляет собой разновидность МО, основанную на использовании сложных многослойных нейронных сетей.
Структура искусственных нейронных сетей (ИНС) вдохновлена биологическими нейронными сетями. ИНС – это математическая модель, которая имитирует организацию и функционирование нейронов в живых организмах. Информация в ИНС передается по слоям взаимосвязанных узлов – нейронов (см. рис. 3).

Рис. 3. Структура искус- ственной нейронной сети (цит. по [2])
Искусственные нейронные сети (ИНС) представляют собой математические модели, основанные на упрощенном представлении структуры биологического мозга. Каждый элемент ИНС – искусственный нейрон – получает сигналы от множества других нейронов, обрабатывает их по заданному алгоритму и передает результат дальше.
Связи между искусственными нейронами, аналогичные синапсам в биологических нейронных сетях, характеризуются весовыми коэффициентами. Эти коэффициенты определяют степень влияния сигнала от одного нейрона на другой и подлежат оптимизации в процессе обучения сети.
Обучение ИНС заключается в экспериментальном подборе весовых коэффициентов для достижения желаемого результата с минимальной ошибкой. В результате, ИНС приобретает способность анализировать и запоминать информацию, а также воспроизводить ее из памяти.
Структура ИНС обычно включает входной слой, который принимает исходные данные (текст, изображения, числовые значения), один или несколько скрытых слоев, которые обрабатывают информацию посредством вычислений с весовыми коэффициентами, и выходной слой, выдающий интерпретируемый результат.
Количество скрытых слоев может варьироваться в зависимости от сложности решаемой задачи.
Сверточные нейронные сети (СНС) – это разновидность ИНС, специально разработанная для обработки изображений. Входной слой СНС имитирует работу фоторецепторов, а последующие слои последовательно строят более абстрактные представления информации, от простых геометрических форм и текстур до сложных объектов, таких как лица или медицинские изображения.
СНС широко применяются в медицине для анализа изображений, диагностики заболеваний и планирования лечения.
Применение систем глубокого обучения в медицине
Системы глубокого обучения (СГЗ), основанные на сверточных нейронных сетях (СНС), находят широкое применение в радиологии для диагностики. Они используются при интерпретации рентгеновских снимков, полученных как с помощью стандартной рентгенографии, так и компьютерной томографии.
В патоморфологической диагностике СГЗ демонстрируют высокую эффективность в классификации опухолей, обнаружении метастазов и даже определении молекулярных характеристик опухоли, таких как экспрессия PD-L1, непосредственно по цифровым изображениям биопсий.
В 2018 году технология диагностики ретинопатии с использованием СГЗ получила одобрение Управления по контролю за качеством пищевых продуктов и лекарственных средств США (FDA) для клинического применения.
Рекуррентные нейронные сети (РНС), тип нейронных сетей, в которых связи между нейронами образуют направленную последовательность во времени, представляют собой мощный инструмент для обработки динамически изменяющейся информации.
Это делает их пригодными для таких задач, как распознавание текста или речи, где информация представлена в виде неструктурированных последовательных данных.
РНС могут быть использованы для анализа содержимого электронных медицинских карт. В последние пять лет РНС активно используются в клинических исследованиях для обработки естественного языка. Как метод машинного обучения (МО), РНС являются эффективным инструментом извлечения ценной информации, содержащейся в медицинских записях.
Задачи машинного обучения и интерпретация его результатов
В дополнение к искусственным нейронным сетям (ИНС) существуют другие стандартные алгоритмы машинного обучения (МО), такие как: метод опорных векторов для разделения данных в многомерном пространстве, метод k-ближайших соседей, который классифицирует данные на основе сходства с другими данными, и деревья решений, использующие древовидную структуру для принятия решений.
Также известны ансамблевые методы МО, например, случайные леса и градиентный бустинг, которые объединяют несколько слабых моделей (обычно деревьев решений) для повышения точности. Хотя некоторые алгоритмы МО могут уступать ИНС в решении некоторых задач, они часто достигают аналогичных или лучших результатов в других задачах. Кроме того, такие методы обладают преимуществами: меньшими требованиями к вычислительным мощностям, объёму данных для обучения и более простой интерпретацией. ИНС, с другой стороны, демонстрируют постоянное превосходство в некоторых областях, например, в обработке изображений, но могут требовать большого количества обучающих данных и мощной аппаратной поддержки.
Методы МО используются для решения следующих основных задач:
- Классификация: распределение данных по классам (группам), например, при постановке диагноза или определении группы риска.
- Регрессия (прогноз): предсказание события, например, прогнозирование выживаемости по исходным параметрам.
- Распознавание: наиболее широкое применение нейронных сетей, например, распознавание онкологических заболеваний на цифровых изображениях, полученных при компьютерной томографии.
Независимо от выбранного метода МО, результатом является математическая модель – абстракция реального явления, в которой интересующие исследователя отношения между реальными элементами заменяются подходящими, зачастую упрощенными, отношениями между математическими объектами. Другими словами, это представление реальной ситуации с помощью математического языка.
Понимание тонкостей МО на уровне специалиста в области данных (data scientist) не является обязательным для клинических специалистов. Однако грамотность в статистике и принципах анализа данных является краеугольным камнем современного медицинского образования как для исследователей, так и практикующих врачей. Объем медицинских знаний быстро меняется, и клиницисты должны своевременно получать информацию о новых исследованиях, понимая их дизайн и научную терминологию.
Эффективность технологий машинного обучения (МО) в медицине напрямую зависит от качества исходных данных. Вариабельность данных может быть обусловлена различными факторами, такими как медицинское учреждение, в котором они были собраны, а также методикой сбора. Неоднородные и неполные данные затрудняют создание универсальной модели, обладающей высокой точностью и применимой в различных учреждениях здравоохранения.
Модели, обученные на данных из одного медицинского центра, могут иметь ограниченную практическую ценность и трудности с адаптацией к другим учреждениям. Это связано с тем, что точность работы таких моделей может существенно снижаться при использовании данных из других источников. Например, при интерпретации изображений компьютерной томографии (КТ) различия в типах томографов и качестве получаемых изображений могут привести к ошибкам.
Важной характеристикой моделей МО для практического применения является их интерпретируемость. Принятие медицинских решений часто основано на анализе противоречивой информации, поэтому врачам необходимы веские основания для выбора курса лечения. Чем прозрачнее работа модели МО, тем увереннее врач сможет использовать ее в качестве помощника при принятии решений.
Однако многие модели МО обладают “черным ящиком” (black box problem), что затрудняет их интерпретацию. В связи с этим, при тестировании моделей МО важными параметрами являются чувствительность, специфичность и общая точность (см. рис. 4).
Рис. 4. Определение точности модели машинного обучения (цит. по [2])
Чувствительность модели отражает долю правильно предсказанных положительных результатов, т.е. случаев, когда модель верно определила наличие прогнозируемого события. Она варьируется от 0% до 100%. Специфичность модели, наоборот, представляет собой долю правильно предсказанных отрицательных результатов, т.е. случаев, когда модель корректно определила отсутствие прогнозируемого события. Аналогично чувствительности, специфичность также измеряется в процентах и принимает значения от 0% до 100%.
Оптимальная модель характеризуется максимальными значениями как чувствительности, так и специфичности. Точность модели может быть вычислена двумя способами:
- Accuracy рассчитывается как отношение суммы истинно отрицательных (специфичность) и истинно положительных (чувствительность) случаев к общему числу тестов.
- Precision определяется как отношение числа истинно положительных случаев (чувствительность) к сумме истинно положительных и ложноположительных случаев (1-Специфичность).
Второй способ расчета точности считается более предпочтительным, особенно при работе с выборками данных, где частота изучаемого явления незначительна. В таких случаях Accuracy может быть высоким даже при низкой чувствительности модели, что делает ее непригодной для практического применения.
Визуализация и расчет точности модели могут быть осуществлены с помощью построения кривой ROC (Receiver Operating Characteristic curve). Кривая ROC отображает соотношение между долей объектов, правильно классифицированных как несущие признак (чувствительность), и долей объектов, ошибочно классифицированных как несущие признак (1-Специфичность).
Площадь под кривой ROC (AUC) служит метрикой диагностической ценности модели. Модель с AUC > 0.81 считается хорошей и приемлемой для клинической валидации, при условии, что показатели чувствительности и специфичности примерно равны (симметричная модель). В случае асимметрии модели она может проявлять гипердиагностику (при низкой специфичности) или гиподиагностику (при низкой чувствительности).
Для обучения моделей машинного обучения (МО) необходимы данные, которые агрегируются в наборы данных, называемые датасетами. Датасет представляет собой, как правило, структурированную информацию, доступную для анализа.
Структурированные данные характеризуются отражением отдельных фактов предметной области и упорядочением их определенным образом для обеспечения возможности применения статистических методов обработки. Классически они организованы в вертикальные столбцы – поля, содержащие атрибуты (признаки) объектов, и горизонтальные строки – записи, представляющие единицы наблюдения. Все записи должны содержать один и тот же набор полей, а все поля – один и тот же набор записей.
Большинство алгоритмов МО функционирует исключительно со структурированными данными. В качестве данных могут выступать изображения (фотографии, рисунки), текстовая информация (записи электронных медицинских карт) и числовые датасеты, содержащие параметры, подлежащие непосредственному математическому анализу.
Искусственный интеллект в гематологии: современное состояние
Современные достижения в области машинного обучения (МО) позволили этим технологиям закрепиться во многих сферах медицины, включая гематологию. Текущий прогресс в разработке технологий искусственного интеллекта обещает оптимизировать существующую лечебно-диагностическую помощь, способствуя открытию новых эффективных и персонализированных методов терапии.
Несмотря на то, что многие решения всё ещё находятся на ранних стадиях своего развития и тестирования, они обладают неоспоримым потенциалом для применения в клинической практике. В гематологии МО может быть использовано для решения более широкого круга задач, чем стандартная статистика, число которых растёт с каждым годом.
В первую очередь технологии МО применяются в радиологии, где с помощью алгоритмов глубокого обучения осуществляется автоматический анализ изображений томограмм для выявления визуальных признаков различных заболеваний, таких как рак лёгкого, туберкулёз, COVID-19 и др.
Применение искусственного интеллекта в диагностике гематологических заболеваний
В сфере гематологии технологии компьютерного зрения демонстрируют значительный потенциал для морфологического анализа оцифрованных образцов крови, костного мозга и гистологических препаратов.
Например, точная классификация лейкоцитов в мазках периферической крови, традиционно требующая значительного времени и экспертизы, может быть выполнена моделями на базе сверточных нейронных сетей (СНС) с точностью более 95% для большинства клеточных линий.
Несмотря на высокую точность, модели ИИ могут испытывать трудности в дифференциации клеток с похожими морфологическими характеристиками, например, лимфоцитов и реактивных лимфоцитов.
Тем не менее, применение технологий ИИ позволяет существенно ускорить процесс диагностики и оптимизировать использование человеческих ресурсов. Российские компании уже предлагают решения на базе ИИ для автоматизированной классификации и подсчета клеток на оцифрованных мазках костного мозга.
Другая актуальная проблема – гистопатологическая диагностика рака, требующая высокой квалификации врача-морфолога и зависящая от качества гистологических препаратов.

Рис. 5. Распознавание изображений клеток и их подсчет в маз- ках костного мозга методом компьютерного зрения (цит. по [49])
В онкологии уже существуют автоматизированные диагностические системы на базе глубокого обучения для решения этой задачи.
Исследования показали, что модели ИИ способны с высокой точностью (до 95%) классифицировать гистологические препараты лимфатических узлов и выявлять различные типы лимфом.
Кроме того, технологии компьютерного зрения могут быть использованы для скрининга литических очагов в костной ткани при диагностике множественной миеломы с помощью данных комбинированной КТ и ПЭТ-КТ.
Применение методов глубокого обучения, таких как искусственные нейронные сети (ИНС), позволило существенно повысить точность выявления активных очагов миеломной болезни при помощи позитронно-эмиссионной томографии (ПЭТ) в сочетании с компьютерной томографией (КТ).
Результаты исследования, представленные на рисунке 6, демонстрируют эффективность ИНС в выделении истинно положительных очагов поражения (красный цвет), а также ложноположительных (зеленый цвет) и ложноотрицательных (синий цвет).
В современном здравоохранении наблюдается стремительный рост объема данных, генерируемых медицинскими информационными системами, лабораторными исследованиями и регистрами пациентов. Данные о клинических характеристиках, результатах лабораторных анализов, методах лечения и его эффективности могут быть использованы для создания математических моделей, решающих важные задачи в области медицины: дифференциальную диагностику, прогнозирование исхода заболевания и стратификацию риска.
Важно отметить, что технологии машинного обучения (МО) могут быть эффективными даже при ограниченном объеме данных, не обязательно сбалансированных по всем параметрам. Преимущество МО над традиционными статистическими методами заключается в способности выявлять сложные закономерности и зависимости в данных.
Профиль каждого пациента можно представить в виде «цифрового следа», который постоянно расширяется по мере развития заболевания. «Цифровой след» включает все оцифрованные данные пациента: результаты анализов, данные о лечении, анамнез и т.д. На различных этапах заболевания профиль пациента и его «цифровой след» могут быть проанализированы с помощью технологий искусственного интеллекта (ИИ) для решения научно-практических задач.

Рис. 6. Распознавание остеолитических очагов на ПЭТ-КТ-изображениях при множественной миеломе (цит. по [20])
В одном из исследований, проведенном с использованием технологий МО, была создана более точная модель прогноза рецидива у пациентов с диффузной В-крупноклеточной лимфомой в течение 2 лет по сравнению с традиционными балльными системами. В исследовании приняли участие 518 пациентов, для каждого из которых было измерение 52 характеристик (предикторы).
В качестве методов МО были использованы метод опорных векторов, ИНС, случайные леса и AdaBoost. Результаты показали, что наиболее значимыми предикторами для лучшей модели прогноза рецидива являются стадия заболевания, уровень лактатдегидрогеназы крови, уровень β2-микроглобулина крови, использование ритуксимаба в лечении, инфекция верхних дыхательных путей и экспрессия виментина на клетках лимфомы.
Таким образом, применение технологий МО в медицине открывает новые возможности для повышения точности диагностики, прогнозирования исхода заболевания и разработки индивидуальных подходов к лечению.
Ученые разработали математическую модель, позволяющую прогнозировать рецидив лимфомы с высокой точностью. Показатель AUC модели составляет 99,5%.
Достижение такого результата стало возможным, в том числе, благодаря решению проблемы несбалансированности данных. Для этого был использован метод МО SMOTE, предназначенный для работы с многомерными наборами данных, где один из классов встречается значительно чаще другого.
Искусственный интеллект: перспективное направление в прогнозировании течения гематологических заболеваний
Применение методов искусственного интеллекта (МО) демонстрирует значительный потенциал в области прогнозирования течения гематологических заболеваний.
Наиболее ценным источником данных для построения моделей МО являются структурированныеclinical registries.
Исследования, опубликованные в “American Journal of Clinical Oncology” (2018), показали, что комбинирование МО с национальными клиническими регистрами позволяет создавать высокоточные прогностические модели выживаемости больных диффузной В-крупноклеточной лимфомой.
Полученные модели превосходят по точности Международный прогностический индекс.
В работе использовались данные 2759 пациентов из датского регистра, а точность модели была подтверждена на 2414 пациентах из шведского национального регистра.
Ключевой особенностью исследования стало применение метода стэкинга (суперобучения), при котором окончательная математическая модель формируется путем комбинирования прогнозов нескольких независимых первичных моделей, построенных с использованием различных методов МО.
Отделение клинической гематологии медицинского центра Университета Любляны (Словения) продемонстрировало показательный пример использования МО для анализа информации из медицинских карт.
Исследователи собрали данные лабораторных анализов 8233 пациентов за период с 2005 по 2015 гг., что составило более 370 тыс. лабораторных тестов, полученных при первичном обращении и постановке диагноза.
Целью исследования было создание модели МО для дифференциальной диагностики гематологических заболеваний в соответствии с Международной классификацией.
В качестве алгоритма был выбран метод случайных лесов.
Тестирование эффективности модели на реальных клинических случаях показало точность диагностики 90%, что значительно превосходит точность диагностики врачами-гематологами (77%).
Полученные результаты стали основой для разработки коммерческого продукта.
В области гематологии актуальна проблема недостаточной точности прогнозирования исхода заболеваний с использованием существующих шкал. Например, в случае миелодиспластического синдрома (МДС), широко применяемые модели International Prognostic Scoring System (IPSS) и Revised International Prognostic Scoring System (R-IPSS) демонстрируют ограниченную предиктивную точность.
Сравнительный анализ моделей прогнозирования общей выживаемости (ОВ) показывает, что c-индекс (мера соответствия прогноза реальным данным) для IPSS составляет 0,64, для R-IPSS – 0,66, для классификации МДС по ВОЗ – 0,68, а для балльной прогностической системы онкологического центра MD Anderson – 0,69.
В то же время применение методов машинного обучения (МО) с использованием клинических и геномных данных позволяет достичь более высокой точности прогнозирования: c-индекс для прогноза ОВ составляет 0,78, а для прогноза трансформации МДС в острый миелоидный лейкоз – 0,8.
Модели, основанные на клинических и генетических данных, также могут быть использованы для стратификации риска при трансплантации гемопоэтических стволовых клеток (ГСК). Например, с помощью моделей, основанных на искусственных нейронных сетях (ИНС), можно прогнозировать риск ухудшения состояния пациентов с заболеваниями крови, госпитализированных для трансплантации ГСК.
Важно отметить, что полезность таких моделей существенно зависит от исходных данных. Авторы одного исследования сообщили о прогностической точности 88,7% у пациентов после трансплантации аллогенных ГСК по сравнению с 31,8% в группе с трансплантацией аутологичных ГСК.
Это подчеркивает необходимость тщательного отбора пациентов, у которых модель будет использоваться в клинической практике.
В исследовании NCT03199066 (ClinicalTrials.gov) МО применялось для прогноза прогрессирования фолликулярной лимфомы в течение 2 лет после начала иммунохимиотерапии. В исследование включили 1394 пациентов из популяционного регистра Чехии, получавших лечение в период с 2000 по 2016 год.
В качестве методов МО использовались байесовский сетевой анализ (БСА) для расчета вероятности изучаемого события на основе вычисления вероятностей комбинаций различных предикторов и многомерная логистическая регрессия.
Метод БСА позволяет не только рассчитать индивидуальный прогноз риска для каждого пациента, даже если некоторые из предикторов неизвестны, но и визуализировать сложные отношения между предикторами в виде графической схемы.
Результаты исследования показали, что прогностические системы, основанные на методах МО, позволяют лучше стратифицировать пациентов на группы риска, чем традиционный прогностический индекс PRIMA для фолликулярных лимфом.
Применение методов машинного обучения в онкологии
Исследования демонстрируют эффективность применения методов машинного обучения (МО) в прогнозировании рецидивов острых лимфобластных лейкозов (ОЛЛ) у детей и стратификации риска у пациентов с различными онкологическими заболеваниями.
В одном исследовании, проведенном на 50 детях с ОЛЛ, использовались контролируемые алгоритмы МО для определения наиболее значимых факторов прогноза рецидива. Алгоритм CART показал наилучшую точность (99,8%), а уровни тромбоцитов, гемоглобина, лейкоцитов и пол ребенка были определены как ключевые факторы риска.
Неконтролируемые методы МО также успешно применяются в стратификации риска. Например, метод стохастического вложения соседей с t-распределением позволил визуализировать многомерные данные о реципиентах трансплантатов и определить подкластеры пациентов с разным риском летальности от реакции «трансплантат против хозяина».
Кластерный анализ методом K-средних повысил точность стратификации риска индолентного течения хронического лимфолейкоза (ХЛЛ), помогая принимать решения о начале терапии или выборе тактики наблюдения. Аналогично, кластерный анализ позволил выделить прогностические факторыOverall survival (ОВ) у пациентов с ХЛЛ, разделив общую группу на подгруппы с различным прогнозом ОВ.
Таким образом, применение методов МО открывает новые возможности для персонализированной медицины в онкологии, позволяя прогнозировать рецидивы, стратифицировать риск и оптимизировать лечебные стратегии.
Использование искусственного интеллекта в лечении гематологических заболеваний
Применение методов машинного обучения (МО) в онкогематологии открывает новые возможности для повышения эффективности лечения.
С помощью МО можно проводить качественную стратификацию пациентов, что позволяет не только прогнозировать течение заболевания, но и ускорять разработку новых терапевтических подходов. Правильный отбор участников клинических исследований с учетом строгих критериев включения и исключения является ключевым фактором для успешного изучения эффективности и безопасности новых лекарственных препаратов.
МО может оказать существенную помощь в этом процессе:
- Автоматически просматривать данные из электронных медицинских карт для поиска подходящих кандидатов на участие в исследовании.
- Определять фенотипы заболевания, которые с наибольшей вероятностью будут реагировать на исследуемую терапию.
Такие подходы позволяют оптимизировать размер выборки пациентов, снизить затраты и минимизировать риски неудач лечения.
Трансплантация аллогенных гемопоэтических стволовых клеток (ГСК) является высокотехнологичным методом лечения для пациентов с острыми лейкозами, однако сопряженным с высоким риском осложнений, потенциально угрожающих жизни.
Алгоритмы МО могут быть использованы для прогнозирования летальности, связанной с трансплантацией аллогенных ГСК.
Результаты ретроспективного исследования, опубликованные в “Journal of Clinical Oncology” в 2015 году, продемонстрировали эффективность применения метода МО, называемого переменным деревом решений (ADtree), для прогнозирования летальности у пациентов с острыми миелобластным и лимфобластным лейкозами в течение 100 дней после трансплантации и их 2-летней общей выживаемости.
Последние исследования показывают, что применение МО позволяет создавать персонализированные модели прогнозирования результатов лечения после трансплантации аллогенных ГСК у пациентов с миелодиспластическим синдромом (МДС), для которых трансплантация остается единственным потенциально излечивающим вариантом терапии.
В одном из таких исследований, проведенном на 1514 пациентах с МДС, генетическое секвенирование образцов периферической крови выявило 129 наиболее часто мутирующих генов. Для построения модели общей выживаемости был использован метод случайных лесов. Наиболее частыми мутациями оказались ASXL1 (20%), TP53 (19%), DNMT3A (15%) и TET2 (12%).
Исследовательская модель прогнозирования выживаемости пациентов после трансплантации гемопоэтических стволовых клеток (ГСК) была разработана на основе комплексного анализа клинических и генетических факторов. К числу этих факторов относятся: возраст пациента, наличие мутации гена TP53, абсолютное количество нейтрофилов, цитогенетические аномалии согласно R-IPSS, общее состояние больного по шкале Карновского, режим кондиционирования до трансплантации, возраст донора, количество лейкоцитов, концентрация гемоглобина, тип терапии, процент бластных клеток в периферической крови, наличие мутаций в генах семейства RAS, JAK2, ZRSR2 и CUX1.
Полученная модель позволяет рассчитать индивидуальную вероятность выживания в разные временные интервалы. Данная информация может быть использована врачами для принятия обоснованных решений о проведении трансплантации аллогенных ГСК.
Технологии машинного обучения (МО) эффективно решают узкоспециализированные задачи в области лабораторной диагностики. Современные гематологические анализаторы, основанные на принципах электропроводности клеток и лазерной цитометрии, предоставляют исчерпывающую информацию о размерах клеток, характеристиках их поверхности, структуре ядра и цитоплазматических гранулах.
В исследовании, опубликованном в “British Journal of Haematology” в 2018 году, была продемонстрирована эффективность МО в дифференциальной диагностике лимфоцитоза. Использовались данные, полученные на гематологическом анализаторе DXH800 (Beckman Coulter). Образцы крови от 400 пациентов были разделены на три группы: здоровые, пациенты с вирусной инфекцией (вирус Эпштейна-Барр и цитомегаловирус) и больные хроническим лимфоцитарным лейкозом (ХЛЛ). Диагноз был подтвержден серологическими методами и иммунофенотипированием.
В качестве предикторов для МО использовались морфологические характеристики лимфоцитов и их абсолютное количество. Анализ показал, что метод на основе искусственных нейронных сетей (ИНС) с наибольшей точностью (AUC 98%) позволяет дифференцировать типы лимфоцитоза.
Таким образом, сочетание результатов современной аппаратной диагностики с технологиями МО открывает новые возможности для повышения эффективности клинической практики.
Актуальным вопросом в терапии онкогематологических больных является прогнозирование эффективности лечения. Технологии машинного обучения (МО) предлагают несколько решений этой проблемы.
Перспективным направлением считается анализ генетических данных, полученных при геномном секвенировании нового поколения. Однако из-за большого объема информации и редкости встречаемых мутаций, получаемые данные часто оказываются клинически не значимыми и слишком сложными для интерпретации и прогнозирования течения болезни у конкретного пациента.
Решение этой проблемы может быть найдено в применении рекомендательных систем, аналогичных тем, которые используются в интернет-рекламе для формирования таргетированных предложений.
Некоторые исследования уже продемонстрировали возможность прогноза ответа на лечение гипометилирующими агентами и леналидомидом у пациентов с миелодиспластическим синдромом (МДС) с использованием большой панели генетических мутаций. Такой анализ невозможен стандартными статистическими методами.
Модели МО позволяют выявить закономерности между обнаруженными мутациями, клиническими характеристиками пациентов и ответом на лечение или развитием резистентности к нему.
Обзор основных исследований по применению МО в гематологии представлен в табл. 1.

Здесь: AUC — площадь под кривой; АА — апластическая анемия; ГСК — гемопоэтические стволовые клетки; МДС — миелодиспластический синдром; ОМЛ — острый миелоидный лейкоз; ПЭТ-КТ — совмещенная позитронно-эмиссионная и компьютерная томография; СНС — сверточная нейронная сеть.
Искусственный интеллект в разработке лекарственных средств: новые горизонты
Использование искусственного интеллекта (ИИ) открывает новые возможности в области разработки лекарственных средств. Модели глубокого обучения, основанные на принципах компьютерного моделирования *in silico*, успешно применяются для прогнозирования эффективности химических соединений в борьбе с онкологическими заболеваниями *in vitro*.
Несмотря на высокую вычислительную сложность и необходимость применения продвинутых методов анализа данных, этот подход демонстрирует значительный потенциал для ускорения и повышения эффективности разработки новых препаратов.
Многие существующие методы лечения рака сопряжены с серьезными побочными эффектами и оказывают положительное воздействие лишь на ограниченную группу пациентов. В связи с этим, существует острая потребность в инструментах, способных оптимизировать выбор наиболее безопасной и эффективной терапии.
Технологии ИИ успешно применяются для моделирования процесса лечения, что позволяет прогнозировать его эффективность для конкретного пациента. Данный подход основан на анализе данных пациентов, получавших различные виды лечения, но имеющих схожие генетические профили опухолей.
Результаты применения подобных технологий к наборам данных пациентов с множественной миеломой демонстрируют впечатляющие результаты. Выделение клинически значимых сигнатур экспрессии генов позволило вдвое улучшить выживаемость без прогрессирования у 20% пациентов, получавших бортезомиб, и утроить выживаемость без прогрессирования у 31% больных, получавших леналидомид, по сравнению с группами исторического контроля.
Несмотря на значительный прогресс в лечении некоторых гематологических злокачественных опухолей, лейкозы и лимфомы по-прежнему часто остаются неизлечимыми.
В качестве перспективного подхода к решению этой проблемы рассматривается применение методов машинного обучения (МО). Исследования в этой области основаны на обширных ретроспективных и проспективных данных, а алгоритмы строятся путем перебора различных комбинаций последовательных стратегий лечения [46]. Целью может быть, например, максимальное повышение выживаемости пациентов. В этом случае ИИ должен определить оптимальную схему терапии в зависимости от клинического профиля больного.
Сложность такого подхода заключается в большом количестве факторов, влияющих на течение болезни, что приводит к множеству возможных комбинаций стратегий, которые сложно проверить.
Методы МО также используются для выявления предикторов неэффективности новой терапевтической опции в ходе клинических исследований. Это позволяет сформировать более точный профиль пациента, который может эффективно реагировать на данный вид лечения.
В качестве примера можно привести анализ данных клинического исследования KEYNOTE-183, в котором терапия по схеме помалидомид, дексаметазон и пембролизумаб не продемонстрировала значимых преимуществ по сравнению с дуплетом помалидомида и дексаметазона [47]. Применение технологий МО позволило исследователям определить значимые факторы, негативно влияющие на результаты новой терапии с включением пембролизумаба, например, статус пациента по шкале ECOG [48].
Общий вывод
В завершение необходимо подчеркнуть, что спектр научно-практических задач в медицине, включая гематологию, для решения которых целесообразно применять методы оптимизации (МО), весьма широк. Стандартные статистические методы анализа оказываются недостаточными для их решения.
Современные тенденции, связанные с цифровизацией общества и насущной необходимостью разработки новых методов борьбы с онкологическими заболеваниями, делают актуальным и перспективным дальнейшее развитие, изучение и применение технологий искусственного интеллекта (ИИ).
Литература
- Muhsen IN, Shyr D, Sung AD, Hashmi Machine Learning Applications in the Diagnosis of Benign and Malignant Hematological Diseases. Clin Hematol Intern. 2021;3(1):13–20. doi: 10.2991/chi.k.201130.001.
- Radakovich N, Nagy M, Nazha A. Machine learning in haematological malignancies. Lancet Haematol. 2020;7(7):e541–e550. doi: 10.1016/S2352- 3026(20)30121-6.
- Deo RC. Machine Learning in Medicine. Circulation. 2015;132(20):1920–30. doi: 10.1161/CIRCULATIONAHA.115.001593.
- Miotto R, Wang F, Wang S, et al. Deep learning for healthcare: review, opportunities and challenges. Brief Bioinform. 2018;19(6):1236–46. doi: 10.1093/ bib/bbx044.
- Esteva A, Robicquet A, Ramsundar B, et al. A guide to deep learning in healthcare. Nat Med. 2019;25(1):24–9. doi: 10.1038/s41591-018-0316-z.
- Komura D, Ishikawa S. Machine learning approaches for pathologic diag- nosis. Virchows Arch. 2019;475(2):131–8. doi: 10.1007/s00428-019-02594-w.
- Sha L, Osinski BL, Ho IY, et al. Multi-Field-of-View Deep Learning Model Predicts Nonsmall Cell Lung Cancer Programmed Death-Ligand 1 Status from Whole-Slide Hematoxylin and Eosin Images. J Pathol Inform. 2019;10(1):24. doi: 10.4103/jpi.jpi_24_19.
- Abramoff MD, Lavin PT, Birch M, et Pivotal trial of an autonomous AI-based diagnostic system for detection of diabetic retinopathy in primary care offices. NPJ Digit Med. 2018;1(1):39. doi: 10.1038/s41746-018-0040-6.
- Benjamens S, Dhunnoo P, Mesko B. The state of artificial intelligence-based FDA-approved medical devices and algorithms: an online database. NPJ Digit 2020;3(1):118. doi: 10.1038/s41746-020-00324-0.
- Shouval R, Fein JA, Savani B, et al. Machine learning and artificial intelli- gence in Br J Haematol. 2021;192(2):239–50. doi: 10.1111/bjh.16915.
- Shahid AH, Singh Computational intelligence techniques for medical diagnosis and prognosis: problems and current developments. Biocybern Biomed Eng. 2019;39(3):638–72. doi: 10.1016/j.bbe.2019.05.010.
- Морозов С.П., Владзимирский А.В., Кляшторный В.Г. и др. Клиниче- ские испытания программного обеспечения на основе интеллектуальных технологий (лучевая диагностика). Лучшие практики лучевой и инструмен- тальной диагностики. Препринт № ЦДТ-2019-1. М., 34 с.
- Morozov SP, Vladzimirskii AV, Klyashtornyi VG, et al. Clinical acceptance of software based on artificial intelligence technologies (radiology). Preprint No. CDT-2019-1. Luchshie praktiki luchevoi i instrumental’noi diagnostiki. (Best prac- tices in medical imaging.) Moscow; 2019. 34 p. (In Russ)]
- Shekelle PG, Shetty K, Newberry S, et al. Machine Learning Versus Stan- dard Techniques for Updating Searches for Systematic Reviews: A Diagnostic Accuracy Ann Intern Med. 2017;167(3):213–5. doi: 10.7326/L17-0124.
- Kimura K, Tabe Y, Ai T, et al. A novel automated image analysis system using deep convolutional neural networks can assist to differentiate MDS and AA. Sci Rep. 2019;9(1):13385. doi: 1038/s41598-019-49942-z.
- Wang Q, Bi S, Sun M, et al. Deep learning approach to peripheral leukocyte recognition. PLoS 2019;14(6):e0218808. doi: 10.1371/journal.pone.0218808.
- Hegde RB, Prasad K, Hebbar H, Singh BMK. Comparison of traditional image processing and deep learning approaches for classification of white blood cells in peripheral blood smear images. Biocybern Biomed Eng. 2019;39(2):382– 92. doi: 1016/j.bbe.2019.01.005.
- Syrykh C, Abreu A, Amara N, et Accurate diagnosis of lymphoma on whole-slide histopathology images using deep learning. NPJ Digit Med. 2020;3(1):63. doi: 10.1038/s41746-020-0272-0.
- Achi HE, Belousova T, Chen L, et Automated Diagnosis of Lym- phoma with Digital Pathology Images Using Deep Learning. Ann Clin Lab Sci. 2019;49(2):153–60.
- Sheng B, Zhou M, Hua M, et al. A blood cell dataset for lymphoma classifi- cation using faster R-CNN. Biotechnol Biotechnol Equip. 2020;34(1):413–20. doi: 10.1080/13102818.2020.1765871.
- Xu L, Tetteh G, Lipkova J, et al. Automated Whole-Body Bone Lesion Detection for Multiple Myeloma on (68)Ga-Pentixafor PET/CT Imaging Using Deep Learning Methods. Contrast Media Mol Imaging. 2018;2018:1–11. doi: 10.1155/2018/2391925.
- Martinez-Martinez F, Kybic J, Lambert L, Meckova Z. Fully automated classification of bone marrow infiltration in low-dose CT of patients with multiple myeloma based on probabilistic density model and supervised learning. Comput Biol Med. 2016;71:57–66. doi: 10.1016/j.compbiomed.2016.02.001.
- Wang L, Zhao Z, Luo Y, et al. Classifying 2-year recurrence in patients with DLBCL using clinical variables with imbalanced data and machine learning methods. Comput Meth Program Biomed. 2020;196:105567. doi: 10.1016/j. cmpb.2020.105567.
- Biccler JL, Eloranta S, de Nully Brown P, et Optimizing Outcome Prediction in Diffuse Large B-Cell Lymphoma by Use of Machine Learning and Nationwide Lymphoma Registries: A Nordic Lymphoma Group Study. JCO Clin Cancer Inform. 2018;2:1–13. doi: 10.1200/CCI.18.00025.
- Guncar G, Kukar M, Notar M, et al. An application of machine learning to haematological Sci Rep. 2018;8(1):411. doi: 10.1038/s41598-017-18564-8. Breiman L. Random forests. Machine Learning. 2001;45:5–32. doi: 10.1023/A:1010933404324.
Автор оригинальной статьи: А.С. Лучинин



