Оценка позы и движений человека с помощью компьютерного зрения: кратко о главном

97
views

Оценка позы человека — это метод, который идентифицирует и классифицирует суставы человеческого тела с помощью технологий компьютерного зрения. Искусственный интеллект используется для отслеживания моделей движений и положения суставов и конечностей человека на изображениях и видео. 

Оценка положения тела в компьютерном зрении позволяет машинам точно интерпретировать движения человека и реагировать на них. От автоматизации диагностики в здравоохранении и поддержки передовых систем видеонаблюдения до повышения спортивных результатов и улучшения игрового процесса — эта технология используется в самых разных отраслях. 

В этой статье мы рассмотрим оценку позы человека, ее важность, проблемы, варианты применения и будущие тенденции.

Что такое оценка позы человека? 

Оценка позы человека — это задача компьютерного зрения, в которой используются обученные модели для определения ключевых семантических точек. Этими ключевыми точками могут быть суставы и конечности, формирующие позу человека в реальном времени. С помощью оценки позы можно анализировать ключевые точки по движениям и принимать решения на основе входных данных.  

Технология компьютерного зрения  используется для обработки чрезвычайно сложных изображений и видео, имитирующих процессы человеческого разума. Эта технология применяется в таких задачах, как обнаружение движений тела, коррекция осанки, фитнес-тренировки с использованием искусственного интеллекта и контроль за выполнением упражнений. 

Существует три распространенных типа моделей человеческого тела: скелетные, контурные и объемные. В настоящее время скелетная модель является наиболее часто используемой для оценки позы человека благодаря своей гибкости. 

Почему важна оценка позы?

Оценка позы человека выходит за рамки простого распознавания движений – она предоставляет ценную информацию о здоровье, производительности и взаимодействии. Она способствует принятию более взвешенных решений и созданию более безопасного и персонализированного опыта.

  • Точный анализ движений

    Функция оценки позы позволяет отслеживать движения пациента и предоставлять данные терапевту для оценки прогресса в состоянии здоровья пациента и корректировки лечения. Она выявляет проблемы со здоровьем, такие как неврологические расстройства и проблемы с подвижностью, обеспечивая своевременное вмешательство и персонализированный уход.

  • Анализ производительности

    В спорте оценка позы анализирует движения тела спортсменов, помогая тренерам выявлять области, требующие улучшения, и корректировать тренировочные стратегии. Она также отслеживает риск травм во время тренировок, позволяя корректировать позы.

  • Взаимодействие человека с компьютером (HCI)

    Оценка позы помогает пользователям взаимодействовать с приложениями посредством естественных движений тела, обеспечивая контроль в играх и виртуальном перемещении. Это мощный инструмент, позволяющий людям с ограниченными возможностями взаимодействовать с технологиями.

  • Наблюдение и безопасность

    Определение позы позволяет обнаруживать необычное поведение, отслеживать активность человека и повышать эффективность систем безопасности. Это также дает роботам возможность обучаться и имитировать движения человека для оказания помощи в хирургических операциях или производственных процессах. Более того, это улучшает дополненную реальность в розничной торговле и магазинах.

Методы «снизу вверх» и «сверху вниз»

Эти два основных подхода определяют, как системы оценки позы человека обнаруживают и собирают ключевые точки. Понимание их различий поможет вам выбрать правильный метод для вашего конкретного приложения.

Особенность Метод «сверху вниз» Метод «снизу вверх»
Порядок обнаружения Сначала определяет местоположение каждого человека, затем оценивает его позу. Сначала определяет все ключевые точки, затем группирует их в позы.
Вычислительная стоимость Скорость увеличивается с ростом числа людей; замедляется на изображениях с большим количеством людей. Более стабильная работа; обрабатывает все изображение сразу.
Выступление перед публикой Трудности с перекрытием объектов и наложением изображений людей. Лучше справляется с многолюдными сценами, разделяя ключевые моменты после их завершения.
Точность Часто достигается более высокая точность на одного человека. Несколько более низкая точность из-за сложностей сопоставления ключевых точек.
Скорость в сценах с участием нескольких человек Более медленный процесс, поскольку оценка позы повторяется для каждого человека. Быстрее, особенно при большом количестве людей.
Идеальные варианты использования Фитнес-приложения, спортивная аналитика, отслеживание местоположения одного человека. Наблюдение, анализ толпы, отслеживание нескольких человек в режиме реального времени.
Примеры моделей Mask R-CNN, HRNet (версии с нисходящим потоком) OpenPose, Higher HRNet, ассоциативное встраивание

Что такое оценка позы человека в 2D?

Оценка 2D-позы человека определяет его положение в пространстве или 2D-позицию путем отслеживания ключевых точек на теле на основе визуальных данных, таких как видео и изображения. Традиционные методы 2D-оценки использовали созданные вручную признаки и методы извлечения для идентификации частей человеческого тела. Ранние методы использовали отслеживание людей в виде схематичных фигур для определения структуры позы.  

Современные модели машинного обучения  используют подход глубокого обучения для оценки позы   , который идентифицирует ключевые точки человеческого тела и представляет их в двумерных координатах X и Y. Четыре основных типа широко используемых методов оценки двумерной позы — это OpenPose, CPN, AlphaPose и HRNet. 

Что такое оценка 3D-позы человека? 

Оценка 3D-позы человека — это метод, используемый для отслеживания суставов человеческого тела в трехмерном пространстве. Поскольку он предоставляет обширную информацию о трехмерной структуре человеческого тела, в последние годы он вызывает большой интерес. Он широко используется в индустрии 3D-анимации и виртуальной реальности.  

Процесс оценки позы начинается со сбора и анализа данных в каждом кадре и определения ключевых точек на человеческом теле. Модели сначала работают с 2D-координатами, поскольку извлечение данных и их интерпретация в 3D-пространство являются простыми и быстрыми. Оценка 3D-позы подразделяется на два направления, которые включают в себя: 

  • Обнаружение и извлечение ключевых 2D-точек из изображений. Горизонтальные и вертикальные координаты используются для построения скелетной структуры. 
  • Преобразование двумерных координат в трехмерные путем добавления глубины и размеров. 

Что такое 3D-моделирование человеческого тела?

Моделирование человеческого тела является важнейшим аспектом оценки позы человека, поскольку оно представляет особенности и ключевые точки, извлеченные из визуальных данных. Для описания позы человеческого тела и предоставления 2D и 3D поз используется подход, основанный на моделировании. Большинство методов используют жесткую кинематическую модель с N суставами, где человеческое тело представлено суставами и конечностями, содержащими информацию о кинематической структуре и форме тела. Существует три типа моделирования человеческого тела.

  • Кинематическая модель

    Кинематическая модель, также называемая скелетной моделью, включает в себя набор положений суставов и ориентаций конечностей относительно структуры человеческого тела. Эта модель также известна как древовидная модель. Она отражает взаимосвязь между различными частями тела. Кинематическая модель полезна для гибкого графического представления, но ограничена в представлении информации о текстуре и форме.

  • Плоская модель

    Плоская модель, также называемая моделью на основе контуров, в основном используется для оценки 2D-позы. В этой модели поза тела представляется прямоугольниками, отображающими контуры человеческого тела. Традиционно для представления конечностей человека в виде прямоугольников использовались картонные модели. В настоящее время для получения полного графа тела и деформаций силуэта с помощью анализа главных компонентов используется модель активной формы (Active Shape Model, ASM).

  • Объемная модель

    Объемная модель широко используется в оценке 3D-позы. Эта модель представляет человеческое тело в трехмерной структуре, используя такие формы, как конусы и цилиндры, чтобы реалистично обозначить позу человека. Эта модель часто используется в методах глубокого обучения для обучения на наборе данных высокого разрешения, полученном при сканировании всего тела.

Оценка позы человека с помощью глубокого обучения

Быстрое развитие методов глубокого обучения для оценки позы значительно улучшило процессы сегментации изображений и обнаружения объектов. Оценка позы легко применима в компьютерном зрении, поэтому вы можете создать собственный алгоритм оценки позы, используя существующие модели. Вот несколько популярных архитектур, которые помогут вам начать:

  • OpenPose

    OpenPose — это популярная платформа, основанная на подходе «снизу вверх», для оценки позы нескольких человек в реальном времени. Она обеспечивает высокоточное обнаружение ключевых точек тела, рук, ног и лица на различном оборудовании, от процессоров до графических процессоров, и идеально подходит даже для периферийных устройств и встроенных систем видеонаблюдения.

  • HRNet

    High-Resolution Net (HRNet) — это нейронная сеть для оценки позы человека, используемая в задачах обработки изображений и поддерживающая высокоточные представления при оценке поз в спортивных трансляциях.

  • DeepCut

    Это еще один популярный подход «снизу вверх» для оценки позы человека в многопользовательском режиме. Он определяет количество людей на изображении, а затем прогнозирует положение суставов, в основном применяется для обработки видеозаписей футбольных и баскетбольных матчей.

  • AlphaPose

    AlphaPose — это популярный метод оценки позы сверху вниз, полезный для неточных ограничивающих рамок человека. Он применим для обнаружения поз как одного, так и нескольких человек на изображениях или видео.

  • DeepPose

    DeepPose — это алгоритм оценки позы человека, используемый в глубоких нейронных сетях для захвата всех суставов; он включает в себя слой пулинга, сверточный слой и полносвязный слой, которые являются частью этих слоев.

  • PoseNet

    Это архитектура для оценки позы, построенная на TensorFlow.js и предназначенная для работы на мобильных устройствах и в браузерах. Она может использоваться для оценки одной или нескольких поз.

  • DensePose

    Этот метод оценки позы сопоставляет все пиксели RGB-изображения человека с трехмерной поверхностью человеческого тела и может использоваться для задач оценки как одной, так и нескольких поз.

  • TensorFlow

    TensorFlow Lite используется для оценки положения в облегченной модели машинного обучения для маломощных периферийных устройств.

  • OpenPifPaf

    OpenPifPaf — это библиотека компьютерного зрения с открытым исходным кодом, созданная на основе фреймворка глубокого обучения PyTorch для распознавания поз и отслеживания движений в сценариях, таких как окклюзия и загроможденный фон.

  • YOLOv8

    Эти модели поз YOLOv8 используют суффикс -pose и обучены на наборе данных COCO key points, которые подходят для различных задач оценки позы.

Основные задачи оценки человеческих поз

Оценка позы человека сталкивается с препятствиями, такими как окклюзия, разнообразие поз и необходимость точности в реальном времени. Преодоление этих трудностей — ключ к созданию надёжных и масштабируемых решений в разных отраслях.

Перекрывающиеся тела: когда вид части тела скрыт другими людьми, предметами или самим телом, алгоритмам становится сложно точно оценить позу.

Решение: метод снизу вверх используется в многолюдных местах, так как он правильно группирует ключевые точки и оценивает позу тела.

Вариации внешности: У людей разные формы тела, которые смотрятся с разных ракурсов и камеры, что может усложнять работу моделей оценки позы. Изменения погодных условий могут усугублять ситуацию.

Решения: обучение моделей на различных наборах данных и предоставление многовидного подхода могут повысить эффективность оценки позы.

Производительность в реальном времени: Разработка модели оценки позы, работающей в реальном времени для таких приложений, как AR/VR, фитнес-трекинг и взаимодействие человека с компьютером, является серьёзной задачей. Особенно при сложных сценах и требованиях к высокой точности.

Решения: использование лёгких моделей машинного обучения или мобильных приложений и веб-браузеров может повысить производительность в реальном времени.

Топ-5 случаев применения и применения оценки позы человека

Оценка позы — это передовая технология, которая помогает организациям отслеживать движения человека в реальном времени. Её широкое применение в таких сферах, как фитнес, реабилитация, анимация, игры, робототехника и даже видеонаблюдение, принесло огромные успехи. Давайте учиться.

  1. Приложения для фитнес-тренировок

Оценка позы человека широко используется в контексте фитнес-приложений ИИ. Он анализирует движения тела спортсменов в различных сценариях с помощью камеры смартфона. Эти приложения дают спортсменам представление о том, как они выполняют определённое движение, и могут показывать точные метрики упражнений. Они могут использовать угол в силовых движениях, смену техники между повторениями. Методы HPE используются для отслеживания, правильно ли пользователь выполняет упражнение с точки зрения техники, а также для предоставления рекомендаций, таких как коррекция осанки и биомеханические советы.

  1. Применение в физиотерапии и реабилитации

Реабилитационное приложение требует гораздо большей точности в выявлении ключевых точек, чем фитнес-приложение. Важно следить за ключевыми моментами и их изменением во время движения, чтобы избежать травм. Оценка позы отслеживает выполнение приседаний, проверяет наличие прогибания коленей или округлых спин и предоставляет обратную связь для их коррекции. Кроме того, терапевты могут отслеживать движения и выявлять такие проблемы, как дисбаланс осанки, указывающие на медицинские состояния, что приводит к более ранней диагностике и персонализированному плану лечения.

  1. Приложения для виртуальных покупок

Оценка позы, интегрированная в приложения на основе дополненной реальности, такие как виртуальные примерочные, позволяет обнаруживать и распознавать положение человеческого тела в пространстве. Покупатели могут проверить размер одежды перед покупкой. Оценка позы отслеживает ключевые точки на человеческом теле и передаёт данные в модель дополненной реальности, которая подходит к одежде пользователю.

  1. Анимация и игровые приложения

Разработка игр — это сложная задача, требующая знаний механики человеческого тела. Таким образом, оценка позы широко используется в игровых анимациях для упрощения процесса, передавая ключевые точки в определённом положении в анимированную модель. Кроме того, ключевые элементы напоминают технологии отслеживания движения, используемые в видеопроизводстве.

  1. Наблюдение и отслеживание человеческой деятельности

Анализируя последовательность поз и движений, оценка поз может использоваться для выявления и классификации человеческих действий, таких как ходьба, бег, сидение или конкретные жесты. Оценка позы анализирует последовательность движений для выявления и классификации человеческих действий и конкретных жестов. Amazon GO, магазин без кассы, использует оценку человеческой позы, чтобы отслеживать, взял ли человек товар с полки. Оценка позы в компьютерном зрении позволяет Amazon автоматизировать оформление заказа в своих магазинах с помощью сети датчиков камер и устройств IoT. В этом случае модель оценки позы анализирует ключевые точки рук и головы клиентов, чтобы определить, взяли ли они продукт с полки или оставили его на месте.

Будущие тенденции

Организации из всех отраслей планируют инвестировать в технологии, повышающие производительность и безопасность. Оценка позы человека может помочь им достичь этой цели, анализируя взаимодействие работников с окружающей средой в производственном процессе, выявляя техники безопасного подъёма на складах и изучая движения спортсменов в спорте. В таких отраслях оценка позы позволяет профессионалам полагаться на движение, основанное на данных, для руководства обучением и предотвращения травм. С развитием технологий эти системы не просто обнаруживают неправильное положение; Они будут проактивно предупреждать пользователя в реальном времени, предлагая корректирующие действия до того, как риск увеличится.

Исследование достигло точности 92,8% при распознавании действий сборки с помощью YOLOv3 и 82,1% точности при оценке времени работы повторяющегося сборки с помощью совместного извлечения координат. (Источник: PubMed Central: Национальная медицинская библиотека)

Оценка положения человека меняет подход к отслеживанию движений в индустрии видеонаблюдения и фитнеса. Проблемы физической активности и безопасности на рабочем месте становятся все более сложными. Снижая риск несчастных случаев на производстве и повышая производительность, организации теперь могут защитить своих сотрудников и увеличить уровень удержания персонала. Внедрение оценки положения превращает аналитические данные в измеримые преимущества и способствует повышению устойчивости. Будь то предотвращение производственных травм, улучшение реабилитации пациентов или совершенствование спортивных техник, сотрудничество с опытным поставщиком технологий имеет важное значение. Обладая необходимыми знаниями, компании могут уверенно внедрять решения по оценке положения, которые обеспечивают измеримые улучшения, защищают свои команды и остаются впереди в мире, основанном на данных.

Часто задаваемые вопросы 

1. Какова основная цель оценки позы в компьютерном зрении? 

Основная цель оценки позы в компьютерном зрении — идентификация и отображение ключевых точек на человеческом теле, таких как суставы и конечности, для понимания его положения и движений. Это позволяет машинам интерпретировать сложные действия человека на основе изображений или видео. В конечном итоге, это устраняет разрыв между визуальными данными и осмысленным распознаванием действий человека. 

2. Почему оценка позы важна? 

Оценка позы важна, поскольку она позволяет машинам понимать и интерпретировать движения человека, открывая двери для таких приложений, как распознавание активности, отслеживание физической активности и взаимодействие человека с компьютером. Она повышает безопасность, автоматизацию и персонализированный опыт в самых разных отраслях, от здравоохранения до розничной торговли. Преобразуя сложные движения тела в точные данные, оценка позы помогает предприятиям принимать более обоснованные решения в режиме реального времени. 

3. Каковы результаты оценки позы? 

Результаты оценки позы представляют собой точные координаты ключевых суставов тела, обычно отображаемые в виде точек (x, y) на изображении или видеокадре. Эти ключевые точки позволяют реконструировать скелет человека, анализировать движения и отслеживать позу или жесты во времени. Эти данные используются в таких приложениях, как распознавание активности, отслеживание физической формы, анимация в реальном времени и даже мониторинг безопасности на рабочем месте.