Применение компьютерного зрения в медицине: от подходов к приложениям

264
views

Концепция искусственного интеллекта (ИИ) развивалась с 1950 года, когда Алан Тьюринг описал использование компьютеров для развития критического мышления и принятия решений человеком. В настоящее время искусственный интеллект является неотъемлемой частью развития цифрового мира и используется во всех сферах деятельности от медицины до промышленности и производства.

Изначально ИИ представлял собой ряд простых алгоритмов типа «если это, то то»,
затем алгоритмы быстро усложнялись, имитируя нейронные связи человеческого мозга. Результатом развития концепции стало появление таких классов искусственного интеллекта, как машинное обучение, глубокое обучение, обработка естественного языка и компьютерное зрение:

  • машинное обучение – это область искусственного интеллекта, подразумевающая «обучение» компьютерных алгоритмов самостоятельному принятию решений. Машинное обучение является движущей силой интеллекта современных систем. Таким образом, система обучается самостоятельно (обучение без учителя) или с подкреплением из окружающей среды, анализируя и классифицируя большие объемы данных для выявления обнаруженных закономерностей и использования их для дальнейшего изучения;
  • глубокое обучение представлено методами машинного обучения, которые позволяют обучать систему не с помощью алгоритмов, а с помощью представлений. Глубокое обучение доказало свою эффективность после того, как рост вычислительной мощности позволил создать сложные архитектуры нейронных сетей. Применение глубокого обучения позволило решать задачи с использованием компьютерного зрения, распознавания речи, машинного перевода и т. д.;
  • обработка естественного языка – это область ИИ, используемая для преобразования естественного языка в формат, понятный компьютерным системам для дальнейшего анализа. Она используется для распознавания речи; распознавания рукописных и машинописных заметок;
  • компьютерное зрение – это область ИИ, которая занимается идентификацией видео- и фотографических изображений по необработанным пикселям. Компьютерное зрение позволяет выполнять такие задачи, как обнаружение, классификация и интерпретация различных объектов для категоризации
    предопределенных результатов анализа.

Цель данной статьи – изучить применение методов компьютерного зрения в
области медицины: области использования, преимущества и возможные трудности;

Компьютерное зрение (CV) охватывает широкий спектр технологий обработки изображений, включая выделение объектов, идентификацию лиц и анализ содержания изображения. Применение CV не ограничивается графическими редакторами и “умными” камерами. Данная технология все шире внедряется в сложных и критически важных областях, таких как медицина.

В сотрудничестве с Кириллом Симоновым, специалистом по машинному обучению с опытом работы в области компьютерного зрения, мы рассмотрим принципы функционирования CV и проанализируем его возможности в решении медицинских задач.

Какие подходы используются в компьютерном зрении

Компьютерное зрение (CV) существует задолго до появления современных нейросетей. Раньше инженеры в области CV использовали алгоритмы, основанные на математических принципах, таких как линейная алгебра и аналитическая геометрия, для выделения ключевых признаков на изображениях.

С развитием технологий, ростом вычислительной мощности и увеличением объёмов данных многие задачи CV стали решаться с помощью нейросетей. В настоящее время существуют два основных подхода: классическое CV и нейросетевое CV. В этом тексте мы рассмотрим их различия и области применения в медицине.

Классическое CV: Этот подход использует набор алгоритмов, которые обрабатывают изображения с математической точки зрения. Изображение может рассматриваться как сигнал или двумерная/трёхмерная матрица чисел, к которой можно применять математические преобразования для изменения изображения или выделения из него полезной информации.

Примеры применения классических методов CV:

  • Обнаружение границ объектов: операция взятия градиента позволяет обнаруживать резкие перепады цвета и таким образом выделить границы объекта.
  • Устранение шума: обработка амплитудной составляющей помогает найти и отфильтровать шумы на изображении.
  • Сравнение изображений: преобразование изображений в векторное представление позволяет сравнивать их – похожие векторы означают, что объекты на картинках тоже схожи.

Пример классического метода CV: HOG (гистограмма направленных градиентов) – это метод, который строит векторное представление изображения с информацией о перепадах цвета и границах объектов. Совмещение HOG с алгоритмом классификации SVM (Support Vector Machine) позволяло создавать простейшие детекторы объектов на изображении.

Несмотря на свою эффективность в прошлом, этот подход сейчас уступает по точности и эффективности нейросетевым методам.

Классические методы компьютерного зрения, несмотря на свою простоту, обладают высокой точностью при решении задач с ограниченным объемом данных. Их применение в медицине часто носит вспомогательный характер – обнаружение объектов, предварительная сегментация и т.д.

В некоторых случаях использование классических методов предпочтительнее, например, для поиска ключевых точек на изображении или фильтрации картинок. Хотя нейронные сети способны выполнять эти задачи, традиционные алгоритмы демонстрируют более высокую скорость работы.

Для реализации классического компьютерного зрения широко используется библиотека OpenCV, предоставляющая обширный набор алгоритмов и совместимость с различными языками программирования. Инженеры, работающие с классическими методами, также активно используют Python-библиотеки, такие как NumPy, SciPy и Scikit-image, содержащие необходимые математические функции для обработки данных.

Нейронные сети в компьютерном зрении. Первые нейронные сети появились несколько десятилетий назад, но их возможности были ограничены и они не могли эффективно обрабатывать многомерные данные изображений.

Ситуация изменилась с появлением сверточной архитектуры, которая оптимизирована для задач компьютерного зрения. Специальные слои анализируют соседние пиксели, содержащие непрерывную визуальную информацию, что позволяет понять контекст изображения.

Большинство современных инструментов компьютерного зрения основаны на сверточных нейронных сетях, которые способны детально анализировать, сегментировать изображения и обнаруживать сложные объекты, в том числе в медицинской области.

Для работы с нейросетевым компьютерным зрением обычно используется Python в сочетании с библиотеками PyTorch или TensorFlow. Обе библиотеки предназначены для создания и обучения моделей, выбор между ними зависит от предпочтений разработчика.

Для чего используют компьютерное зрение

Традиционно CV применяется для трех основных типов задач: классификации, детекции и сегментации.

Так выглядят решения этих задач на примере одного фото кота. Источник

Классификация

Задача классификации изображений заключается в определении принадлежности изображения к конкретному классу. Результатом является бинарное значение: «1» (да), если изображение соответствует классу, или «0» (нет) в противном случае. Существует также мультиклассификация, где одно изображение может относиться к нескольким классам.

В медицинской практике чистая классификация встречается реже. Например, при выявлении подозрительных участков на рентгеновском снимке ответ «да» или «нет» недостаточен. Для уточнения диагноза используются задачи детекции и сегментации.

В этом примере модель получает на вход фото новообразования кожи и классифицирует, доброкачественное оно или злокачественное. Источник

Детекция

Модель, решающая данную задачу, не только определяет наличие объекта на изображении, но и осуществляет его локализацияцию – выявление примерных границ.

В случае двумерного изображения модель выявляет четыре угловые точки, формирующие прямоугольник, охватывающий объект. Для трехмерных изображений вместо прямоугольника строится параллелепипед, что требует определения восьми точек. При работе с видеоматериалами детекция может трансформироваться в задачу отслеживания, где модель должна не только обнаружить объект, но и определить его траекторию движения в кадре.

Рассматривая рентгеновский снимок в качестве примера, задача детекции заключается в определении локализации подозрительного участка. Subsequently, выделенная область может быть передана классификатору для решения вопроса о её природе (например, является ли она опухолью).

В условиях пандемии COVID-19 для обеспечения соблюдения требований по ношению масок была реализована совместная технология детекции и классификации. Алгоритм детекции осуществлял локализации лица на изображении, после чего классификатор определял принадлежность обнаруженного объекта к классу “лицо с маской”. . Источник

Сегментация

Данная задача представляет собой более сложный вычислительный процесс, в ходе которого модель осуществляет классификацию каждого пикселя изображения для определения точных границ объекта.

Существует два типа сегментации:

  • Семантическая сегментация предполагает выделение различных классов объектов. Например, на изображении с несколькими кистами модель идентифицирует их все и относит к общему классу “киста”.
  • Инстанс-сегментация осуществляет выделение конкретных объектов. На том же снимке модель присвоит каждой кисте уникальный идентификатор или условное обозначение.

Здесь модель провела семантическую сегментацию — она выделила красным участки затемнения в легких пациента. После этого врач их оценит и сделает заключение. Источник

Пример инстанс-сегментации. На снимке каждый орган и даже каждый позвонок определяется как отдельный объект и выделяется своим цветом. Источник

Помимо трех основных задач — классификации, детекции и сегментации, компьютерное зрение охватывает и другие функции, такие как распознавание и генерация. Распознавание заключается в сравнении изображения с уже существующими образцами для идентификации объектов, например, определения лица на фотографии. Генерация же предполагает создание новых изображений на основе имеющихся данных.

Функция генерации находит применение и в медицине, в частности, для обучения новых моделей. Обучение алгоритмов на качественных медицинских данных затруднено из-за их ограниченного количества и трудоемкости подготовки. В этой связи генеративные алгоритмы используются для искусственного создания данных на основе существующих.

Важно отметить, что перечисленные задачи часто решаются не изолированно, а в комбинации друг с другом. Для этого несколько моделей объединяются в каскад — последовательность шагов, выполняющих определенный набор действий. Например, при анализе медицинских изображений:

  • детекция определяет местоположение объекта (опухоли) на снимке и выделяет его;
  • классификация оценивает подобие опухоли к злокачественной;
  • сегментация точно определяет границы опухоли;
  • распознавание с определенной степенью точности соотносит тип опухоли с известными образцами.

Какие задачи CV может решать в медицине

Диагностика

Компьютерное зрение (CV) находит широкое применение в медицине. Ключевыми задачами CV являются обнаружение и локализация патологических образований, таких как опухоли, оценка активности головного мозга, а также анализ плотности тканей.

Благодаря CV возможно выявление закономерностей и аномалий на медицинских снимках (рентгеновских, КТ, МРТ), что способствует более быстрому и точному постановлению диагноза.

В период пандемии коронавируса алгоритмы CV использовались для оценки результатов компьютерной томографии у больных COVID-19, тем самым снижая нагрузку на медицинский персонал. За 30 секунд один алгоритм мог обработать до 400 снимков, что значительно превосходит возможности человека.

Наблюдение

В контексте обсуждения речь идет о пациентах с установленным диагнозом. Технология компьютерного зрения играет важную роль в динамическом мониторинге состояния здоровья этих пациентов. К примеру, она позволяет отслеживать изменения размеров опухоли, оценивать темпы регенерации тканей после травм и другие параметры.

Компьютерное зрение может быть эффективно применено для профилактики пролежней у пациентов с ограниченной подвижностью. Специальные алгоритмы анализируют положение тела пациента, определяют степень риска возникновения пролежней и проводят оценку имеющихся повреждений.

Камеры и датчики аппарата собирают информацию о позе и состоянии пациента. Компьютерная модель получает эти данные и делает выводы о риске развития пролежней. Источник

Анализ лекарств

В области фармацевтического анализа и разработки лекарств чаще всего используются алгоритмы машинного обучения, работающие не с визуальными данными, а с химическими структурами и свойствами веществ.

Компьютерное зрение, тем не менее, также находит применение в специфических задачах этой области. Например, для оценки эффективности антибиотиков может быть использован CV-алгоритм, который анализирует изображения клеточных культур бактерий в чашке Петри. Алгоритм определяет зоны с наиболее активным замедлением роста бактерий, что позволяет исследователям подобрать наиболее эффективный антибиотик для лечения конкретной инфекции.

Круги, которые модель выделила на изображении чашки Петри, — это зоны, где погибли клеточные культуры. Чем шире эта зона, тем больше бактерий уничтожил образец антибиотика, помещенный в центр. Источник

Производство

Компьютерное зрение (CV) находит широкое применение в производстве лекарственных препаратов. Алгоритмы CV используются на фармацевтических предприятиях для контроля качества продукции.

К примеру, системы CV могут проверять:

  • Наличие всех таблеток в блистере: алгоритмы способны идентифицировать и подсчитать таблетки, гарантируя полную дозировку.
  • Целостность упаковки: CV может обнаруживать повреждения упаковки, такие как разрывы или проколы, что обеспечивает безопасность и сохранность препарата.
  • Корректность маркировки: алгоритмы проверяют соответствие этикеток на упаковке требованиям и стандартам, предотвращая ошибки в дозировке и назначении препарата.

Таким образом, CV играет важную роль в обеспечении качества и безопасности лекарственных препаратов.

Компьютерное зрение в сфере медицины обладает специфическими характеристиками, отличающими его от иных задач машинного обучения. Это обусловлено тем, что медицинские изображения представляют собой объёмные и сложные по структуре данные, требующие применения более совершенных методов обработки по сравнению с другими типами изображений.

Следует более детально рассмотреть эти особенности.

Медицинские данные, как правило, обладают трехмерной структурой. Для проведения полной диагностики двумерные изображения недостаточно информативны. Рентгенография выполняется в нескольких проекциях, а более сложные исследования, такие как компьютерная томография (КТ) и магнитно-резонансная томография (МРТ), генерируют детальные трехмерные модели. Эти модели могут быть весьма объемными, содержать тысячи элементов и дополняться метаданными, включающими информацию о пациенте и процедуре.

В связи с этим для обработки подобных данных используются многомерные сверточные нейронные сети. Они осуществляют анализ изображений в трех измерениях, а иногда и в четырех, когда необходимо учитывать изменение данных во времени, например, при сканировании активности мозга. Данные сети требуют значительных вычислительных ресурсов и не могут быть запущены на обычных компьютерах, необходимы специализированные серверы или облачные сервисы.

Результаты сканирования представляют собой не простые изображения. Трехмерные изображения содержат данные в виде вокселей (трехмерных пикселей) или векторов. Рентген, КТ и МРТ хранят их в специфических форматах, отличающихся от привычных графических файлов.

Вот некоторые примеры таких форматов:

  • DICOM: файл, в котором помимо изображения присутствует множество метаданных, например, информация о пациенте и самом исследовании;
  • NIfTI: стандарт для нейровизуализации, например, при сканировании головного мозга. Файл содержит информацию об ориентации объектов и изменениях снимков во времени. Другими словами, такой формат ближе к видео или сигналу, чем к статическому изображению;
  • NrrD: формат для многомерных растровых данных, которые практически не подвергаются обработке и близки к исходным, что упрощает компьютерную обработку.

Так выглядит рентгеновский снимок в формате DICOM: поверх изображения можно расположить текстовый слой с информацией о пациенте и оборудовании. Источник

Существует множество форматов данных, которые необходимо преобразовать в формат, понятный алгоритму модели машинного обучения. Это создаёт дополнительную задачу для специалистов по подготовке данных, заключающуюся в правильном преобразовании информации без потерь важной составляющей.

Подготовка данных к использованию в медицинских моделях представляет собой сложный процесс. Для эффективной работы модель должна быть обучена на большом объеме тестовых данных. Например, это могут быть трёхмерные снимки с разметкой опухолей по вокселям. Разметку выполняет врач, обладающий навыками интерпретации таких изображений. Данный процесс занимает значительное время: представьте, что требуется вручную выделить каждую точку опухоли на снимке размером 1000 × 1000 × 1000. Помимо основной работы, специалисту необходимо освоить программное обеспечение для разметки.

Вследствие этого в области медицинского машинного зрения часто наблюдается дефицит качественных датасетов для обучения моделей. В таких случаях используются генеративные модели искусственного интеллекта, которые на основе существующих данных создают «синтетические» наборы. Это более эффективный метод по сравнению с ручной разметкой и позволяет снять часть нагрузки с врачей.

Точность интерпретации играет решающую роль в медицине. Даже незначительная ошибка в расчётах может иметь критические последствия, поскольку речь идёт о вопросах жизни и здоровья. При этом сканы содержат огромные объемы данных, что может усложнять работу модели.

Часто возникает проблема переобучения модели, когда она слишком точно подстраивается под обучающие данные и теряет способность обобщать новую информацию. В этом случае алгоритм выдаёт уверенные, но иногда неверные ответы. Возникает задача калибровки модели для повышения точности и снижения чрезмерной уверенности в прогнозах.

На изображении — результаты сегментации опухоли мозга на МРТ-снимках. Верхний ряд показывает истинные метки (размеченные специалистами или данными из референса), а нижний ряд — предсказанные моделью сегментации метки. Можно заметить, что различия минимальны. Источник

Как развивается CV в медицине

Важной задачей является преодоление сложностей, о которых говорилось ранее, а именно: получение большего количества качественных данных и поддержание высокой точности исследований. Не менее значительным направлением является расширение применения технологий компьютерного зрения (CV) и нейронных сетей в медицине.

В этой связи, целесообразно рассмотреть следующие пути развития:

  • Разработка комплексных решений: Алгоритмы CV должны быть способны анализировать не только отдельные заболевания, но и выявлять сопутствующие патологии. Например, при диагностике порока сердца модель могла бы одновременно обнаруживать признаки остеопороза.
  • Повышение уровня автоматизации: Необходимо минимизировать участие врача в процессе диагностики с помощью алгоритмов CV. Это сложная задача, требующая не только точных технологий, но и соответствующей правовой базы. Тем не менее, подобные решения уже существуют, например, система «Кибернож» для радиохирургии, которая самостоятельно определяет зону облучения и контролирует состояние тканей пациента с помощью непрерывного рентгеновского сканирования в реальном времени.
  • Внедрение CV-решений в больницы: В настоящее время компьютерное зрение преимущественно используется в высокотехнологичных медицинских центрах. Важно сделать его доступным для обычных медучреждений. Положительным примером является централизованное внедрение CV в московские медучреждения, благодаря которому было проведено более 11 миллионов исследований.

В системе «Кибернож» алгоритм управляет промышленным роботом, который подает поток заряженных частиц точно в те участки, где находится новообразование. Источник

Компьютерное зрение уже меняет медицину, и с развитием технологий его роль будет расти. В будущем диагностика и лечение могут стать быстрее и проще, потому что часть задач возьмет на себя компьютер.

Революция в медицинской визуализации

Медицинская визуализация играет жизненно важную роль в современном здравоохранении, предоставляя критически важную информацию о внутренних процессах организма. Исторически эта область в значительной степени опиралась на знания рентгенологов и других медицинских экспертов для понимания изображений, полученных с помощью рентгеновских снимков и сканирования.

Однако новые разработки в области компьютерного зрения производят революцию в медицинской визуализации. В данной статье рассматривается концепция компьютерного зрения, включая историю его развития и ключевые технологии. Мы обсудим, как оно применяется в медицинской визуализации, и рассмотрим его важные преимущества для здравоохранения.

Выявление и диагностика заболеваний

Алгоритмы компьютерного зрения продемонстрировали выдающуюся способность обнаруживать заболевания на медицинских изображениях. Например, системы ИИ могут выявлять узелки в легких на КТ грудной клетки с чувствительностью, сравнимой с чувствительностью опытных рентгенологов. Согласно исследованию, опубликованному в журнале Nature, алгоритм глубокого обучения, разработанный Google Health, смог обнаружить рак молочной железы на маммограммах с большей точностью, чем рентгенологи-люди, уменьшив количество как ложноположительных, так и ложноотрицательных результатов.

Еще одно важное применение — выявление диабетической ретинопатии, одной из основных причин слепоты. Системы ИИ, обученные на изображениях сетчатки, могут обнаруживать признаки этого заболевания с высокой точностью, способствуя раннему вмешательству и предотвращению потери зрения. Одно исследование показало, что алгоритм глубокого обучения может обнаруживать диабетическую ретинопатию с чувствительностью 90,3% и специфичностью 98,1%.

Анализ и интерпретация изображений

Использование компьютерного зрения для упрощения анализа изображений – большой шаг вперед в здравоохранении. Оно включает в себя измерение таких патологий, как опухоли, отслеживание состояния здоровья и оценку травм. Модели компьютерного зрения могут эффективно анализировать тысячи изображений, повышая диагностическую достоверность и частично разгружая рентгенологов.

Компьютерное зрение дополняет анализ изображений в онкологии, обеспечивая измерение размеров опухолей и анализ закономерностей роста по данным КТ и МРТ. Эти данные имеют решающее значение для стадирования рака, планирования лечения и мониторинга терапии. Компьютерное зрение автоматизирует функции, позволяющие пациентам получать точный и своевременный диагноз.

Помощь хирургам

Компьютерное зрение, предоставляющее своевременные рекомендации, может помочь хирургам в хирургической практике. Системы компьютерного зрения используются для определения местоположения важных структур и анатомических особенностей во время малоинвазивных процедур, помогая хирургу избежать возможных проблем. Эта технология имеет большое значение в нейрохирургии и ортопедии, где точность критически важна.

Применение роботизированной хирургии требует компьютерного зрения.

Роботизированные технологии в сочетании с компьютерным зрением обеспечивают более высокий уровень контроля и точности при проведении сложных операций, чем когда-либо могли позволить человеческие руки.

Телемедицина и дистанционная диагностика

Пандемия COVID-19 ускорила развитие телемедицины и дистанционной диагностики, в основе которых лежит компьютерное зрение. Используя платформы на базе искусственного интеллекта, пациенты, находящиеся в отдаленных районах, могут загружать изображения, которые медицинские работники могут анализировать для постановки точного диагноза без необходимости личного посещения. Это особенно удобно, если вы живете в районе, где медицинские…

Выводы

Применение компьютерного зрения (КЗ) в медицине позволяет повысить точность диагностики, ускорить процесс анализа медицинских изображений (МРТ, КТ, рентген), оптимизировать уход за пациентами с помощью мониторинга и обнаружения падений, а также автоматизировать рутинные задачи, такие как заполнение медицинских карт и контроль качества производства лекарств. Ключевыми выводами являются: улучшение диагностических решений, снижение нагрузки на медперсонал, индивидуализация лечения и расширение возможностей удаленной помощи и телемедицины. 

Основные выводы и преимущества:
  • Точность и скорость диагностики:
    • Системы КЗ способны выявлять патологии, аномалии и мелкие детали на медицинских снимках, которые может пропустить человеческий глаз, что повышает точность диагностики. 
    • Автоматизированный анализ изображений позволяет значительно ускорить диагностику, особенно в экстренных ситуациях, например, при пандемиях (оценка КТ-снимков). 
  • Оптимизация работы медперсонала:
    • Автоматическая идентификация и мониторинг пациентов сокращают время на заполнение карт, позволяя врачам больше времени уделять лечению. 
    • Системы КЗ могут выступать в роли “второго мнения”, отмечая на изображениях подозрительные области и предоставляя рекомендации. 
  • Улучшение ухода за пациентами:
    • Постоянный мониторинг состояния пациентов, включая обнаружение падений, физического недомогания и рисков пролежней у лежачих больных, повышает безопасность. 
    • Автоматическое оповещение медперсонала о необходимости помощи позволяет оперативно реагировать на нужды пациентов. 
  • Расширение возможностей лечения:
    • КЗ используется для отслеживания изменений в состоянии пациентов, таких как рост опухолей или скорость регенерации тканей, что способствует более точному планированию лечения. 
    • Развитие технологии способствует появлению новых инструментов для удаленных консультаций и лечения с использованием дополненной реальности. 
  • Контроль качества и автоматизация процессов:
    • В фармацевтической промышленности КЗ применяется для автоматизированного контроля качества лекарств, проверки правильности маркировки и целостности упаковки. 
Компьютерное зрение является мощным инструментом, который трансформирует медицину, обеспечивая более точную и быструю диагностику, улучшенный уход за пациентами и более эффективную работу медицинских учреждений.