Компьютерное зрение для смешанной реальности: основы, приложения, перспективы

9
views

Дополненная реальность (AR) и виртуальная реальность (VR) трансформируют то, как мы взаимодействуем с внешним миром. Даже с захватывающими захватывающими повествованиями и интерактивными переживаниями магия создается за кулисами посредством сложной координации передовых технологий.

Компьютерное зрение — это главный двигатель, спокойно, но исключительно решительно направляющий плавный переход между виртуальным и реальным мирами. В этой статье мы подробно рассмотрим компьютерное зрение в смешанной реальности:

  1. Основы AR/VR и основные приемы
  2. Проблемы, о которых вам следует знать
  3. Важные практические приложения
  4. Лучшие проекты с открытым исходным кодом
  5. Главные тенденции в области искусственного интеллекта для дополненной и виртуальной реальности

Моделирование с помощью VR-гарнитуры

Основы компьютерного зрения в дополненной и виртуальной реальности

Понимание, анализ и автоматическое извлечение данных из цифровых изображений и видео являются фокусом подотдела искусственного интеллекта (ИИ), известного как компьютерное зрение. Наши взаимодействия с окружающей средой кардинально меняются благодаря дополненной реальности (AR) и виртуальной реальности (VR). И обе эти иммерсивные технологии в значительной степени опираются на компьютерное зрение.

Компьютерное зрение (CV) — это фундаментальный строительный блок, который может преобразовать отрасли и улучшить повседневные встречи. Технологии VR и AR создают бесшовный, захватывающий опыт. CV делает это, преодолевая разрыв между цифровым и физическим мирами.

В дополненной реальности (AR) компьютерное зрение используется для:

  • Обнаружение объектов используется для распознавания объектов в визуальных данных.
  • Отслеживание объектов используется для понимания движения, подсчета людей и объектов.
  • Одновременная локализация и картографирование (SLAM) позволяет роботам локализовать себя на карте

Усовершенствованные алгоритмы компьютерного зрения облегчают комплексную идентификацию объектов, что позволяет точно отслеживать и аннотировать людей и различные объекты на сцене.

В виртуальной реальности (VR) компьютерное зрение используется для:

  • Оценка положения руки и отслеживание жестов
  • Отслеживание движений глаз и распознавание взгляда
  • Методы картографирования помещений и облака точек

Система компьютерного зрения для отслеживания взгляда

Расширенное отслеживание и пространственное картирование

Для плавного и захватывающего опыта AR/VR необходимы точное отслеживание и пространственное картирование. Эти технологии позволяют распознавать форму, местоположение и ориентацию объектов в трехмерном пространстве. Эта информация используется для создания различных приложений дополненной и виртуальной реальности. Вот некоторые примеры:

  • Точное размещение объектов.  Виртуальные объекты можно точно позиционировать и закреплять в реальном мире, обеспечивая реалистичные взаимодействия и эффекты окклюзии.
  • Естественная навигация. Пользователи могут перемещаться по виртуальным средам или манипулировать объектами, пока система отслеживает их движения и жесты.
  • Наложения дополненной реальности.  Информация и графика могут быть бесшовно наложены на реальный мир, совмещены с физическими объектами и поверхностями.

Пример пространственного отображения Microsoft Holo-Lens

Распознавание и взаимодействие объектов с эффектом погружения

Создание полностью иммерсивных дополненной реальности и виртуальной реальности требует фундаментального понимания обнаружения и взаимодействия объектов . Эти технологии позволяют пользователям легко взаимодействовать с виртуальными объектами, как если бы они присутствовали физически. Таким образом, обеспечивая новый уровень вовлеченности и реализма.

Далее мы рассмотрим некоторые из самых популярных технологий дополненной и виртуальной реальности, которые расширяют границы иммерсивного взаимодействия и распознавания объектов.

Рендеринг с учетом окклюзии

Чтобы опыт дополненной реальности был достоверным, виртуальные вещи должны точно взаимодействовать с объектами реального мира и затенять их. Поэтому нам нужны точные оценки глубины и понимание сцены, чтобы определить, какие объекты находятся перед другими, и соответствующим образом изменить отображение.

Этого можно достичь с помощью камер с датчиками глубины для стереозрения и подходов, основанных на обучении .

Технологии компьютерного зрения позволяют улучшить и уточнить глубинные изображения в средах виртуальной реальности, чтобы обеспечить более захватывающий пользовательский опыт.

Манипулирование объектами в реальном времени

Предоставление пользователям возможности подбирать, перемещать и взаимодействовать с виртуальными объектами, как если бы они присутствовали физически, является ключом к вовлечению в AR/VR-опыт. Это требует точного распознавания объектов , оценки позы , моделирования физики в реальном времени и ключевых методов, таких как обнаружение столкновений и реагирование, методы захвата и манипуляции, а также тактильная обратная связь.

Поверхностное обнаружение и отслеживание

Точное обнаружение и отслеживание реальных поверхностей позволяет эффективно прикреплять и взаимодействовать с виртуальными элементами. Таким образом, создавая естественные и интуитивные взаимодействия в AR.

Мультимодальное распознавание объектов и взаимодействие

Объединение информации с нескольких датчиков (камер, LiDAR, IMU) может привести к более надежному и точному распознаванию объектов и взаимодействию с ними, особенно в сложных условиях. Например, данные LiDAR могут предоставить точную информацию о глубине, в то время как камеры предлагают богатые детали текстуры и цвета.

Распознавание свойств и поведения объектов

Распознавание свойств и поведения объектов (например, жесткости, веса, хрупкости) может еще больше повысить реалистичность взаимодействия. Этого можно достичь путем анализа форм объектов, материалов и прошлых взаимодействий с помощью методов машинного обучения.

Распознавание жестов в реальном времени

Распознавание жестов в реальном времени лежит в основе интуитивного и естественного взаимодействия в AR/VR. Интерпретация движений рук и тела позволяет пользователям управлять виртуальными объектами, перемещаться по средам и выражать себя в этих захватывающих мирах. Далее мы более подробно рассмотрим технологии и приложения, формирующие эту захватывающую область:

Оценка положения руки

Основа распознавания жестов — точное понимание позы и конфигурации руки. Это достигается с помощью различных методов:

  • Гибридные подходы. Маркерные и безмаркерные методы объединяются, часто с использованием маркеров для начальной калибровки и грубого отслеживания. Безмаркерные методы обеспечивают более мелкие детали движений пальцев.
  • Отслеживание на основе маркеров. Без компьютерного зрения физические небольшие маркеры прикрепляются к перчаткам или пальцам для измерения и отслеживания их движений. Хотя это просто и надежно, это может быть громоздко и ограничивать естественные жесты рук.
  • Отслеживание без маркеров.  Использует алгоритмы компьютерного зрения для анализа положения рук непосредственно с изображений с камеры. Модели глубокого обучения, обученные на обширных наборах данных изображений рук, достигают впечатляющей точности, но требуют значительных вычислительных ресурсов.

Компьютерное зрение может обнаруживать и отслеживать движения рук в режиме реального времени

Системы компьютерного зрения можно обучить распознавать жесты

Распознавание и классификация жестов

После оценки поз рук необходимо идентифицировать и классифицировать жесты на основе их значения. Это включает:

  • Библиотеки жестов . Предопределенные наборы общих жестов с соответствующими положениями рук используются для простых задач распознавания.
  • Модели машинного обучения . Алгоритмы глубокого обучения, обученные на больших наборах данных помеченных жестов рук, могут точно распознавать сложные и динамические жесты. Другие методы отслеживают ключевые точки для понимания движения.
  • Контекстно-зависимое распознавание . Учитывает окружающую среду и намерения пользователя для повышения точности распознавания жестов, особенно когда возможны множественные интерпретации.

Положение руки можно интерпретировать для понимания жестов.

Использование движений для взаимодействия с приложениями в виртуальной реальности.

Одновременная локализация и картографирование (SLAM)

Ключевым компонентом AR/VR является SLAM (одновременная локализация и картирование). Это позволяет роботам или интеллектуальным устройствам отслеживать свое местоположение внутри среды и одновременно создавать ее карту. Методы SLAM необходимы для навигации в сложных средах и поддержания пространственной осведомленности в суетливых обстоятельствах.

  • Visual SLAM.  Использует камеры для захвата визуальных данных и извлечения таких характеристик, как края и углы. Затем алгоритмы используют эти характеристики для оценки позы устройства (положения и ориентации) и соответствующего обновления карты.
  • LiDAR SLAM. Использует датчики LiDAR для измерения расстояний до объектов и создания 3D-облаков точек окружающей среды. Это делает возможным более точное и устойчивое картографирование, особенно в условиях низкой текстуры или слабого освещения.
  • SLAM на основе слияния.  Объединяет данные с нескольких датчиков (камер, LiDAR, IMU) для достижения более надежного и точного отслеживания и картирования, особенно в сложных условиях, где отдельные датчики могут работать с перебоями.

Улучшенные пользовательские интерфейсы с компьютерным зрением

Помимо помощи пользователям AR и VR в понимании своего окружения, компьютерное зрение также трансформирует способ, которым эти иммерсивные впечатления позволяют пользователям взаимодействовать с цифровыми компонентами. Разработчики могут разрабатывать более интуитивные, естественные и контекстно-зависимые пользовательские интерфейсы (UI), используя информацию, полученную из визуальных данных.

Вот список некоторых наиболее важных методов:

Отслеживание движения глаз

Автоматизированное отслеживание взгляда выходит за рамки обнаружения взгляда , понимая, куда и как долго смотрят пользователи. Эта информация может быть использована для:

  • Фокус внимания. Системы виртуальной реальности могут направлять ресурсы рендеринга в области, на которых фиксируется внимание пользователей, улучшая визуальную точность и снижая вычислительную нагрузку.
  • Адаптировать контент. Это делается путем корректировки контента, уровня детализации или повествования в зависимости от того, куда смотрит пользователь. Таким образом, создавая более персонализированный и увлекательный опыт.

Дополненная реальность с компьютерным зрением для определения взгляда

Взаимодействие на основе взгляда

Взаимодействие на основе взгляда, основанное на отслеживании глаз, устраняет необходимость в физических контроллерах или традиционных элементах пользовательского интерфейса. Пользователи могут напрямую взаимодействовать с виртуальными объектами или меню, глядя на них и выполняя предопределенные действия, такие как выбор времени задержки, жесты взгляда или отслеживание радужной оболочки глаза. Это создает более захватывающий и бесконтактный опыт взаимодействия.

Динамические наложения пользовательского интерфейса

Статичные наложения пользовательского интерфейса в дополненной реальности могут нарушить естественный вид реального мира. Компьютерное зрение позволяет использовать динамические наложения, которые:

  • Адаптация к среде. Наложения могут изменять свой размер, положение и внешний вид в зависимости от окружающих объектов и контекста сцены. Таким образом, уменьшая визуальный беспорядок и сохраняя фокус пользователя.
  • Выполнять рендеринг с учетом окклюзии. Виртуальные элементы могут быть выборочно скрыты или отображены прозрачными при их заслонении реальными объектами, обеспечивая бесшовное смешение физического и цифрового миров.
Распознавание выражения лица

Понимание эмоций пользователя через выражение лица может улучшить интерфейсы AR/VR несколькими способами:

  • Адаптивные взаимодействия . Виртуальные аватары или системы могут сопереживать эмоциям пользователя, предоставляя персонализированную обратную связь или соответствующим образом корректируя опыт.
  • Доступность для людей с ограниченными возможностями . Распознавание эмоций на лице может быть использовано для разработки альтернативных методов общения для людей с речевыми или двигательными нарушениями.

Распознавание эмоций на лице с помощью компьютерного зрения в реальном времени

Проблемы компьютерного зрения для виртуальной и дополненной реальности

Хотя компьютерное зрение открывает мир захватывающих возможностей в сфере дополненной и виртуальной реальности, остаются и серьезные проблемы:

  • Вычислительные ограничения. Обработка визуальных данных в реальном времени, особенно для сложных сценариев с изображениями высокого разрешения и несколькими датчиками, требует значительных вычислительных ресурсов. Время работы батареи и перегрев устройства могут стать ограничениями в мобильных AR/VR-приложениях.
  • Освещение и изменения окружающей среды. Производительность алгоритмической модели может значительно ухудшиться при изменении условий освещения, теней и окклюзии. Точное распознавание и отслеживание объектов становится сложной задачей в плохо освещенных или загроможденных средах.
  • Обработка окклюзии. Точная обработка скрытых объектов и обеспечение плавных переходов, когда объекты реального мира частично закрывают виртуальные элементы, остается технической проблемой.
  • Проблемы с данными и конфиденциальностью. Обучение надежных моделей компьютерного зрения требует огромных объемов маркированных данных. Таким образом, возникают опасения по поводу конфиденциальности данных и потенциальных предубеждений в наборе данных.
Инновации, продвигающие вперед

Несмотря на эти проблемы, исследователи и разработчики продолжают расширять границы компьютерного зрения для дополненной и виртуальной реальности в реальном мире:

  • Периферийные вычисления . Разгрузка вычислительно-интенсивных задач с устройств в облако или периферийные сети снижает нагрузку на устройства AR/VR. В свою очередь, улучшая производительность и время работы батареи.
  • Легкие модели глубокого обучения.  Разработка более компактных и эффективных архитектур глубокого обучения оптимизирует производительность на устройствах с ограниченными ресурсами, не жертвуя точностью.
  • Слияние датчиков. Объединение данных с нескольких датчиков (камер, LiDAR, IMU) обеспечивает более полную информацию об окружающей среде, что приводит к более надежному и точному отслеживанию, картографированию и распознаванию объектов.
  • Генерация синтетических данных .  Генерация реалистичных синтетических данных с контролируемыми изменениями освещения, фона и окклюзии может дополнить реальные наборы данных и повысить надежность алгоритмов.
  • Методы сохранения конфиденциальности .  Защищенные анклавы и дифференциальные методы конфиденциальности могут защитить пользовательские данные во время сбора, обработки и хранения, решая проблемы конфиденциальности в приложениях компьютерного зрения.

Практическое применение AR/VR в различных отраслях

Видеоигры

В играх AR реальный мир дополняется цифровыми наложениями, что позволяет игрокам взаимодействовать с виртуальной средой. Эта технология вводит такие элементы, как задачи на основе геолокации, перенося игровой процесс на улицы и в общественные места. С другой стороны, игры VR переносят игроков в полностью виртуальные миры, предлагая уровень погружения, при котором пользователи чувствуют себя присутствующими в игровой среде.

Использование контроллеров движения, тактильной обратной связи и реалистичных симуляций улучшает игровой процесс, делая его более увлекательным и реалистичным.

Pokemon Go считалась одной из первых видеоигр с дополненной реальностью.

Образование и обучение

Дополненная реальность (AR) использует компьютерное зрение для точного отображения и наложения цифровой информации на реальный образовательный контент , позволяя учащимся взаимодействовать с дополненным контентом. В виртуальной реальности (VR) сложные системы компьютерного зрения создают иммерсивные, синтетические среды, отслеживая движения, жесты и взаимодействия пользователя. Эти технологии используют сложные модели CV для распознавания объектов в реальном времени, пространственного картирования и точного выравнивания цифровых элементов.

Например, виртуальные среды позволяют студентам-архитекторам исследовать и манипулировать трехмерными архитектурными моделями, обеспечивая реалистичное чувство масштаба и пропорций. Студенты могут виртуально ходить по зданиям, визуализировать различные элементы дизайна и ощущать, как пространства объединяются.

Компьютерное зрение в дополненной и виртуальной реальности, применяемое в архитектурных исследованиях.

Визуализация розничной торговли и продукции

В приложениях для розничной торговли внедрение технологий AR/VR выходит за рамки виртуальных примерочных опытов, играя решающую роль в преобразовании всего процесса покупок. Эти технологии предлагают иммерсивные и интерактивные функции, такие как дополненные демонстрации продуктов и виртуальные выставочные залы. Клиенты могут изучать подробную информацию о продуктах, сравнивать варианты и совершать виртуальные прогулки по магазину.

Кроме того, приложения AR предоставляют информацию в реальном времени о продуктах, акциях и персонализированных рекомендациях, создавая динамичную и увлекательную среду для покупок. Это не только улучшает опыт клиентов, но и предоставляет ритейлерам ценную информацию о предпочтениях и поведении потребителей.

Дополненная реальность для улучшения розничного опыта.

Производство и проектирование

В производстве наложения дополненной реальности предлагают руководство и информацию в реальном времени для таких задач, как сборка, техническое обслуживание и проверка конструкции. Работники могут получить доступ к важным данным и инструкциям, наложенным на их физическую среду, что повышает эффективность и точность. Эти технологии облегчают улучшенные программы обучения, позволяя работникам виртуально визуализировать сложные процессы и машины.

Более того, приложения AR/VR способствуют проверке дизайна, позволяя инженерам оценивать и совершенствовать прототипы в смоделированной среде до физического производства. Такая интеграция повышает общую производительность, снижает количество ошибок и обеспечивает более рационализированный и эффективный производственный процесс.

VR используется в производстве для предоставления детальной и захватывающей визуализации отдельных деталей в сложных продуктах. Таким образом, помогая в процессах проектирования, сборки и контроля качества.

Здравоохранение

В секторе здравоохранения интеграция решений AR/VR играет ключевую роль в дистанционной хирургической помощи, предоставляя хирургам иммерсивные и точные визуализации, которые повышают их способность выполнять процедуры на расстоянии. Кроме того, AR/VR играет важную роль в реабилитационных упражнениях, предлагая интерактивные и персонализированные симуляции, которые помогают пациентам в их выздоровлении.

Медицинское обучение также выигрывает, поскольку эти технологии позволяют проводить реалистичные и захватывающие симуляции для обучения медицинских работников. Возможности точного отслеживания и распознавания объектов способствуют точности и эффективности этих приложений. Эти достижения наблюдаются в уходе за пациентами, хирургических процедурах и медицинском образовании.

Miiskin — это медицинское приложение, которое позволяет пользователям использовать возможности дополненной реальности для сканирования кожи на предмет аномалий.

Взаимодействие и интеграция с ИИ

Синергия между компьютерным зрением и искусственным интеллектом (ИИ) стимулирует прогресс в AR/VR беспрецедентными темпами. Объединяя свои сильные стороны, эти технологии открывают новые уровни восприятия, понимания и взаимодействия в рамках иммерсивных впечатлений.

Машинное обучение лежит в основе этого сотрудничества, позволяя алгоритмам компьютерного зрения:

  • Учитесь на огромных наборах данных. Модели, обученные на больших наборах маркированных визуальных данных, могут распознавать объекты, отслеживать движения и интерпретировать жесты с возрастающей точностью.
  • Адаптация к разнообразным средам. Обучаясь на основе различных условий освещения, фонов и вариаций объектов, алгоритмы становятся более надежными и хорошо обобщаются на невиданные ранее сценарии.
  • Рассуждать и принимать решения. Компьютерное зрение на базе искусственного интеллекта может идентифицировать объекты и рассуждать об их связях, взаимодействиях и последствиях в среде дополненной/виртуальной реальности.

Примеры совместных решений:

  • Понимание сцены в реальном времени . ИИ может анализировать визуальные данные в реальном времени, чтобы понимать пространственную компоновку, объекты и действия, происходящие в сцене AR/VR. Это позволяет динамически адаптировать виртуальные элементы и контент на основе контекста.
  • Персонализированный опыт дополненной реальности. Алгоритмы ИИ могут персонализировать опыт дополненной реальности, изучая предпочтения пользователя и адаптируя контент, взаимодействия и доставку информации к индивидуальным потребностям и интересам.
  • Эмоционально интеллектуальные VR-аватары. ИИ может анализировать выражения лица и голосовые шаблоны пользователя, чтобы создавать виртуальные аватары, которые реагируют эмпатически и динамично, адаптируя свое поведение к эмоциям пользователя.
  • Прогностическое обслуживание в приложениях дополненной реальности. Анализируя визуальные данные с промышленного оборудования, компьютерное зрение на базе искусственного интеллекта может предсказывать потенциальные сбои и направлять технических специалистов в процессах ремонта с использованием дополненной реальности.

Лучшие проекты виртуальной и дополненной реальности с открытым исходным кодом

Сообщество открытого исходного кода играет ключевую роль в продвижении компьютерного зрения для AR/VR. Предлагая свободно доступные ресурсы, такие как платформы, библиотеки и наборы данных, открытый исходный код позволяет разработчикам и исследователям создавать новаторские приложения.

Вот несколько примечательных вкладов сообщества в разработку инструментов дополненной и виртуальной реальности с открытым исходным кодом:

  • OpenCV . Гибкая библиотека для приложений компьютерного зрения в реальном времени. OpenCV часто используется для обработки изображений, отслеживания объектов и приложений AR/VR.
  • ARKit. Фреймворк Apple для создания дополненной реальности на устройствах iOS обеспечивает доступ к камере, LiDAR и возможностям отслеживания движения.
  • ARCore. Фреймворк Google для создания дополненной реальности на устройствах Android предлагает схожие с ARKit функции.
  • SUN3D Стэнфорда. Крупномасштабный набор данных изображений с соответствующими аннотациями 3D-сцен представляет ценность для обучения алгоритмов распознавания объектов и понимания сцен.
  • Matterport3D. Полная коллекция 3D-сканов внутренних помещений, полезная для разработки и тестирования на компьютерах алгоритмов пространственного картирования и навигации в дополненной и виртуальной реальности.
  • ReplicaNet. Набор данных синтетически сгенерированных изображений и 3D-моделей , предлагающий контролируемую среду для обучения и оценки алгоритмов компьютерного зрения в различных условиях.

Оптический поток в дополненной реальности с OpenCV

Тенденции в области компьютерного зрения для дополненной и виртуальной реальности

Будущее компьютерного зрения в дополненной и виртуальной реальности полно захватывающих возможностей:

  • Гиперреалистичные впечатления. Достижения в области рендеринга, распознавания объектов и понимания сцен создадут практически неразличимые сочетания физического и цифрового миров.
  • Аффективные вычисления. Системы виртуальной и дополненной реальности будут распознавать эмоции пользователей и реагировать на них с помощью выражений лица, анализа голоса и физиологических данных, что приведет к более персонализированному и увлекательному опыту.
  • Смешанная реальность (MR). Границы между AR и VR будут продолжать размываться, создавая реальные и виртуальные среды со все более сложными взаимодействиями.
  • Повсеместная дополненная реальность. Поскольку устройства дополненной реальности становятся меньше и все более интегрированными в повседневные носимые устройства, компьютерная реальность позволит взаимодействовать с цифровым миром.

Подводя итог, можно сказать, что роль компьютерного зрения в AR/VR является основой для реалистичных и захватывающих впечатлений. Благодаря своим возможностям, варьирующимся от управления жестами и идентификации объектов до взаимодействия в реальном времени и пространственного картирования, окружающая среда меняет то, как мы с ней взаимодействуем. Благодаря своей способности решать насущные проблемы, продвигать сотрудничество с открытым исходным кодом и принимать непрерывные инновации, компьютерное зрение продолжит раздвигать границы виртуального мира. Это изменит ход реального взаимодействия человека и компьютера и перевернет множество отраслей.