Дополненная реальность (AR) и виртуальная реальность (VR) трансформируют то, как мы взаимодействуем с внешним миром. Даже с захватывающими захватывающими повествованиями и интерактивными переживаниями магия создается за кулисами посредством сложной координации передовых технологий.
Компьютерное зрение — это главный двигатель, спокойно, но исключительно решительно направляющий плавный переход между виртуальным и реальным мирами. В этой статье мы подробно рассмотрим компьютерное зрение в смешанной реальности:
- Основы AR/VR и основные приемы
- Проблемы, о которых вам следует знать
- Важные практические приложения
- Лучшие проекты с открытым исходным кодом
- Главные тенденции в области искусственного интеллекта для дополненной и виртуальной реальности
Моделирование с помощью VR-гарнитуры
Основы компьютерного зрения в дополненной и виртуальной реальности
Понимание, анализ и автоматическое извлечение данных из цифровых изображений и видео являются фокусом подотдела искусственного интеллекта (ИИ), известного как компьютерное зрение. Наши взаимодействия с окружающей средой кардинально меняются благодаря дополненной реальности (AR) и виртуальной реальности (VR). И обе эти иммерсивные технологии в значительной степени опираются на компьютерное зрение.
Компьютерное зрение (CV) — это фундаментальный строительный блок, который может преобразовать отрасли и улучшить повседневные встречи. Технологии VR и AR создают бесшовный, захватывающий опыт. CV делает это, преодолевая разрыв между цифровым и физическим мирами.
В дополненной реальности (AR) компьютерное зрение используется для:
- Обнаружение объектов используется для распознавания объектов в визуальных данных.
- Отслеживание объектов используется для понимания движения, подсчета людей и объектов.
- Одновременная локализация и картографирование (SLAM) позволяет роботам локализовать себя на карте
Усовершенствованные алгоритмы компьютерного зрения облегчают комплексную идентификацию объектов, что позволяет точно отслеживать и аннотировать людей и различные объекты на сцене.
В виртуальной реальности (VR) компьютерное зрение используется для:
- Оценка положения руки и отслеживание жестов
- Отслеживание движений глаз и распознавание взгляда
- Методы картографирования помещений и облака точек
Система компьютерного зрения для отслеживания взгляда
Расширенное отслеживание и пространственное картирование
Для плавного и захватывающего опыта AR/VR необходимы точное отслеживание и пространственное картирование. Эти технологии позволяют распознавать форму, местоположение и ориентацию объектов в трехмерном пространстве. Эта информация используется для создания различных приложений дополненной и виртуальной реальности. Вот некоторые примеры:
- Точное размещение объектов. Виртуальные объекты можно точно позиционировать и закреплять в реальном мире, обеспечивая реалистичные взаимодействия и эффекты окклюзии.
- Естественная навигация. Пользователи могут перемещаться по виртуальным средам или манипулировать объектами, пока система отслеживает их движения и жесты.
- Наложения дополненной реальности. Информация и графика могут быть бесшовно наложены на реальный мир, совмещены с физическими объектами и поверхностями.
Пример пространственного отображения Microsoft Holo-Lens
Распознавание и взаимодействие объектов с эффектом погружения
Создание полностью иммерсивных дополненной реальности и виртуальной реальности требует фундаментального понимания обнаружения и взаимодействия объектов . Эти технологии позволяют пользователям легко взаимодействовать с виртуальными объектами, как если бы они присутствовали физически. Таким образом, обеспечивая новый уровень вовлеченности и реализма.
Далее мы рассмотрим некоторые из самых популярных технологий дополненной и виртуальной реальности, которые расширяют границы иммерсивного взаимодействия и распознавания объектов.
Рендеринг с учетом окклюзии
Чтобы опыт дополненной реальности был достоверным, виртуальные вещи должны точно взаимодействовать с объектами реального мира и затенять их. Поэтому нам нужны точные оценки глубины и понимание сцены, чтобы определить, какие объекты находятся перед другими, и соответствующим образом изменить отображение.
Этого можно достичь с помощью камер с датчиками глубины для стереозрения и подходов, основанных на обучении .
Технологии компьютерного зрения позволяют улучшить и уточнить глубинные изображения в средах виртуальной реальности, чтобы обеспечить более захватывающий пользовательский опыт.
Манипулирование объектами в реальном времени
Предоставление пользователям возможности подбирать, перемещать и взаимодействовать с виртуальными объектами, как если бы они присутствовали физически, является ключом к вовлечению в AR/VR-опыт. Это требует точного распознавания объектов , оценки позы , моделирования физики в реальном времени и ключевых методов, таких как обнаружение столкновений и реагирование, методы захвата и манипуляции, а также тактильная обратная связь.
Поверхностное обнаружение и отслеживание
Точное обнаружение и отслеживание реальных поверхностей позволяет эффективно прикреплять и взаимодействовать с виртуальными элементами. Таким образом, создавая естественные и интуитивные взаимодействия в AR.
Мультимодальное распознавание объектов и взаимодействие
Объединение информации с нескольких датчиков (камер, LiDAR, IMU) может привести к более надежному и точному распознаванию объектов и взаимодействию с ними, особенно в сложных условиях. Например, данные LiDAR могут предоставить точную информацию о глубине, в то время как камеры предлагают богатые детали текстуры и цвета.
Распознавание свойств и поведения объектов
Распознавание свойств и поведения объектов (например, жесткости, веса, хрупкости) может еще больше повысить реалистичность взаимодействия. Этого можно достичь путем анализа форм объектов, материалов и прошлых взаимодействий с помощью методов машинного обучения.
Распознавание жестов в реальном времени
Распознавание жестов в реальном времени лежит в основе интуитивного и естественного взаимодействия в AR/VR. Интерпретация движений рук и тела позволяет пользователям управлять виртуальными объектами, перемещаться по средам и выражать себя в этих захватывающих мирах. Далее мы более подробно рассмотрим технологии и приложения, формирующие эту захватывающую область:
Оценка положения руки
Основа распознавания жестов — точное понимание позы и конфигурации руки. Это достигается с помощью различных методов:
- Гибридные подходы. Маркерные и безмаркерные методы объединяются, часто с использованием маркеров для начальной калибровки и грубого отслеживания. Безмаркерные методы обеспечивают более мелкие детали движений пальцев.
- Отслеживание на основе маркеров. Без компьютерного зрения физические небольшие маркеры прикрепляются к перчаткам или пальцам для измерения и отслеживания их движений. Хотя это просто и надежно, это может быть громоздко и ограничивать естественные жесты рук.
- Отслеживание без маркеров. Использует алгоритмы компьютерного зрения для анализа положения рук непосредственно с изображений с камеры. Модели глубокого обучения, обученные на обширных наборах данных изображений рук, достигают впечатляющей точности, но требуют значительных вычислительных ресурсов.
Компьютерное зрение может обнаруживать и отслеживать движения рук в режиме реального времени
Системы компьютерного зрения можно обучить распознавать жесты
Распознавание и классификация жестов
После оценки поз рук необходимо идентифицировать и классифицировать жесты на основе их значения. Это включает:
- Библиотеки жестов . Предопределенные наборы общих жестов с соответствующими положениями рук используются для простых задач распознавания.
- Модели машинного обучения . Алгоритмы глубокого обучения, обученные на больших наборах данных помеченных жестов рук, могут точно распознавать сложные и динамические жесты. Другие методы отслеживают ключевые точки для понимания движения.
- Контекстно-зависимое распознавание . Учитывает окружающую среду и намерения пользователя для повышения точности распознавания жестов, особенно когда возможны множественные интерпретации.
Положение руки можно интерпретировать для понимания жестов.
Использование движений для взаимодействия с приложениями в виртуальной реальности.
Одновременная локализация и картографирование (SLAM)
Ключевым компонентом AR/VR является SLAM (одновременная локализация и картирование). Это позволяет роботам или интеллектуальным устройствам отслеживать свое местоположение внутри среды и одновременно создавать ее карту. Методы SLAM необходимы для навигации в сложных средах и поддержания пространственной осведомленности в суетливых обстоятельствах.
- Visual SLAM. Использует камеры для захвата визуальных данных и извлечения таких характеристик, как края и углы. Затем алгоритмы используют эти характеристики для оценки позы устройства (положения и ориентации) и соответствующего обновления карты.
- LiDAR SLAM. Использует датчики LiDAR для измерения расстояний до объектов и создания 3D-облаков точек окружающей среды. Это делает возможным более точное и устойчивое картографирование, особенно в условиях низкой текстуры или слабого освещения.
- SLAM на основе слияния. Объединяет данные с нескольких датчиков (камер, LiDAR, IMU) для достижения более надежного и точного отслеживания и картирования, особенно в сложных условиях, где отдельные датчики могут работать с перебоями.
Улучшенные пользовательские интерфейсы с компьютерным зрением
Помимо помощи пользователям AR и VR в понимании своего окружения, компьютерное зрение также трансформирует способ, которым эти иммерсивные впечатления позволяют пользователям взаимодействовать с цифровыми компонентами. Разработчики могут разрабатывать более интуитивные, естественные и контекстно-зависимые пользовательские интерфейсы (UI), используя информацию, полученную из визуальных данных.
Вот список некоторых наиболее важных методов:
Отслеживание движения глаз
Автоматизированное отслеживание взгляда выходит за рамки обнаружения взгляда , понимая, куда и как долго смотрят пользователи. Эта информация может быть использована для:
- Фокус внимания. Системы виртуальной реальности могут направлять ресурсы рендеринга в области, на которых фиксируется внимание пользователей, улучшая визуальную точность и снижая вычислительную нагрузку.
- Адаптировать контент. Это делается путем корректировки контента, уровня детализации или повествования в зависимости от того, куда смотрит пользователь. Таким образом, создавая более персонализированный и увлекательный опыт.
Дополненная реальность с компьютерным зрением для определения взгляда
Взаимодействие на основе взгляда
Взаимодействие на основе взгляда, основанное на отслеживании глаз, устраняет необходимость в физических контроллерах или традиционных элементах пользовательского интерфейса. Пользователи могут напрямую взаимодействовать с виртуальными объектами или меню, глядя на них и выполняя предопределенные действия, такие как выбор времени задержки, жесты взгляда или отслеживание радужной оболочки глаза. Это создает более захватывающий и бесконтактный опыт взаимодействия.
Динамические наложения пользовательского интерфейса
Статичные наложения пользовательского интерфейса в дополненной реальности могут нарушить естественный вид реального мира. Компьютерное зрение позволяет использовать динамические наложения, которые:
- Адаптация к среде. Наложения могут изменять свой размер, положение и внешний вид в зависимости от окружающих объектов и контекста сцены. Таким образом, уменьшая визуальный беспорядок и сохраняя фокус пользователя.
- Выполнять рендеринг с учетом окклюзии. Виртуальные элементы могут быть выборочно скрыты или отображены прозрачными при их заслонении реальными объектами, обеспечивая бесшовное смешение физического и цифрового миров.
Распознавание выражения лица
Понимание эмоций пользователя через выражение лица может улучшить интерфейсы AR/VR несколькими способами:
- Адаптивные взаимодействия . Виртуальные аватары или системы могут сопереживать эмоциям пользователя, предоставляя персонализированную обратную связь или соответствующим образом корректируя опыт.
- Доступность для людей с ограниченными возможностями . Распознавание эмоций на лице может быть использовано для разработки альтернативных методов общения для людей с речевыми или двигательными нарушениями.
Распознавание эмоций на лице с помощью компьютерного зрения в реальном времени
Проблемы компьютерного зрения для виртуальной и дополненной реальности
Хотя компьютерное зрение открывает мир захватывающих возможностей в сфере дополненной и виртуальной реальности, остаются и серьезные проблемы:
- Вычислительные ограничения. Обработка визуальных данных в реальном времени, особенно для сложных сценариев с изображениями высокого разрешения и несколькими датчиками, требует значительных вычислительных ресурсов. Время работы батареи и перегрев устройства могут стать ограничениями в мобильных AR/VR-приложениях.
- Освещение и изменения окружающей среды. Производительность алгоритмической модели может значительно ухудшиться при изменении условий освещения, теней и окклюзии. Точное распознавание и отслеживание объектов становится сложной задачей в плохо освещенных или загроможденных средах.
- Обработка окклюзии. Точная обработка скрытых объектов и обеспечение плавных переходов, когда объекты реального мира частично закрывают виртуальные элементы, остается технической проблемой.
- Проблемы с данными и конфиденциальностью. Обучение надежных моделей компьютерного зрения требует огромных объемов маркированных данных. Таким образом, возникают опасения по поводу конфиденциальности данных и потенциальных предубеждений в наборе данных.
Инновации, продвигающие вперед
Несмотря на эти проблемы, исследователи и разработчики продолжают расширять границы компьютерного зрения для дополненной и виртуальной реальности в реальном мире:
- Периферийные вычисления . Разгрузка вычислительно-интенсивных задач с устройств в облако или периферийные сети снижает нагрузку на устройства AR/VR. В свою очередь, улучшая производительность и время работы батареи.
- Легкие модели глубокого обучения. Разработка более компактных и эффективных архитектур глубокого обучения оптимизирует производительность на устройствах с ограниченными ресурсами, не жертвуя точностью.
- Слияние датчиков. Объединение данных с нескольких датчиков (камер, LiDAR, IMU) обеспечивает более полную информацию об окружающей среде, что приводит к более надежному и точному отслеживанию, картографированию и распознаванию объектов.
- Генерация синтетических данных . Генерация реалистичных синтетических данных с контролируемыми изменениями освещения, фона и окклюзии может дополнить реальные наборы данных и повысить надежность алгоритмов.
- Методы сохранения конфиденциальности . Защищенные анклавы и дифференциальные методы конфиденциальности могут защитить пользовательские данные во время сбора, обработки и хранения, решая проблемы конфиденциальности в приложениях компьютерного зрения.
Практическое применение AR/VR в различных отраслях
Видеоигры
В играх AR реальный мир дополняется цифровыми наложениями, что позволяет игрокам взаимодействовать с виртуальной средой. Эта технология вводит такие элементы, как задачи на основе геолокации, перенося игровой процесс на улицы и в общественные места. С другой стороны, игры VR переносят игроков в полностью виртуальные миры, предлагая уровень погружения, при котором пользователи чувствуют себя присутствующими в игровой среде.
Использование контроллеров движения, тактильной обратной связи и реалистичных симуляций улучшает игровой процесс, делая его более увлекательным и реалистичным.
Pokemon Go считалась одной из первых видеоигр с дополненной реальностью.
Образование и обучение
Дополненная реальность (AR) использует компьютерное зрение для точного отображения и наложения цифровой информации на реальный образовательный контент , позволяя учащимся взаимодействовать с дополненным контентом. В виртуальной реальности (VR) сложные системы компьютерного зрения создают иммерсивные, синтетические среды, отслеживая движения, жесты и взаимодействия пользователя. Эти технологии используют сложные модели CV для распознавания объектов в реальном времени, пространственного картирования и точного выравнивания цифровых элементов.
Например, виртуальные среды позволяют студентам-архитекторам исследовать и манипулировать трехмерными архитектурными моделями, обеспечивая реалистичное чувство масштаба и пропорций. Студенты могут виртуально ходить по зданиям, визуализировать различные элементы дизайна и ощущать, как пространства объединяются.
Компьютерное зрение в дополненной и виртуальной реальности, применяемое в архитектурных исследованиях.
Визуализация розничной торговли и продукции
В приложениях для розничной торговли внедрение технологий AR/VR выходит за рамки виртуальных примерочных опытов, играя решающую роль в преобразовании всего процесса покупок. Эти технологии предлагают иммерсивные и интерактивные функции, такие как дополненные демонстрации продуктов и виртуальные выставочные залы. Клиенты могут изучать подробную информацию о продуктах, сравнивать варианты и совершать виртуальные прогулки по магазину.
Кроме того, приложения AR предоставляют информацию в реальном времени о продуктах, акциях и персонализированных рекомендациях, создавая динамичную и увлекательную среду для покупок. Это не только улучшает опыт клиентов, но и предоставляет ритейлерам ценную информацию о предпочтениях и поведении потребителей.
Дополненная реальность для улучшения розничного опыта.
Производство и проектирование
В производстве наложения дополненной реальности предлагают руководство и информацию в реальном времени для таких задач, как сборка, техническое обслуживание и проверка конструкции. Работники могут получить доступ к важным данным и инструкциям, наложенным на их физическую среду, что повышает эффективность и точность. Эти технологии облегчают улучшенные программы обучения, позволяя работникам виртуально визуализировать сложные процессы и машины.
Более того, приложения AR/VR способствуют проверке дизайна, позволяя инженерам оценивать и совершенствовать прототипы в смоделированной среде до физического производства. Такая интеграция повышает общую производительность, снижает количество ошибок и обеспечивает более рационализированный и эффективный производственный процесс.
VR используется в производстве для предоставления детальной и захватывающей визуализации отдельных деталей в сложных продуктах. Таким образом, помогая в процессах проектирования, сборки и контроля качества.
Здравоохранение
В секторе здравоохранения интеграция решений AR/VR играет ключевую роль в дистанционной хирургической помощи, предоставляя хирургам иммерсивные и точные визуализации, которые повышают их способность выполнять процедуры на расстоянии. Кроме того, AR/VR играет важную роль в реабилитационных упражнениях, предлагая интерактивные и персонализированные симуляции, которые помогают пациентам в их выздоровлении.
Медицинское обучение также выигрывает, поскольку эти технологии позволяют проводить реалистичные и захватывающие симуляции для обучения медицинских работников. Возможности точного отслеживания и распознавания объектов способствуют точности и эффективности этих приложений. Эти достижения наблюдаются в уходе за пациентами, хирургических процедурах и медицинском образовании.
Miiskin — это медицинское приложение, которое позволяет пользователям использовать возможности дополненной реальности для сканирования кожи на предмет аномалий.
Взаимодействие и интеграция с ИИ
Синергия между компьютерным зрением и искусственным интеллектом (ИИ) стимулирует прогресс в AR/VR беспрецедентными темпами. Объединяя свои сильные стороны, эти технологии открывают новые уровни восприятия, понимания и взаимодействия в рамках иммерсивных впечатлений.
Машинное обучение лежит в основе этого сотрудничества, позволяя алгоритмам компьютерного зрения:
- Учитесь на огромных наборах данных. Модели, обученные на больших наборах маркированных визуальных данных, могут распознавать объекты, отслеживать движения и интерпретировать жесты с возрастающей точностью.
- Адаптация к разнообразным средам. Обучаясь на основе различных условий освещения, фонов и вариаций объектов, алгоритмы становятся более надежными и хорошо обобщаются на невиданные ранее сценарии.
- Рассуждать и принимать решения. Компьютерное зрение на базе искусственного интеллекта может идентифицировать объекты и рассуждать об их связях, взаимодействиях и последствиях в среде дополненной/виртуальной реальности.
Примеры совместных решений:
- Понимание сцены в реальном времени . ИИ может анализировать визуальные данные в реальном времени, чтобы понимать пространственную компоновку, объекты и действия, происходящие в сцене AR/VR. Это позволяет динамически адаптировать виртуальные элементы и контент на основе контекста.
- Персонализированный опыт дополненной реальности. Алгоритмы ИИ могут персонализировать опыт дополненной реальности, изучая предпочтения пользователя и адаптируя контент, взаимодействия и доставку информации к индивидуальным потребностям и интересам.
- Эмоционально интеллектуальные VR-аватары. ИИ может анализировать выражения лица и голосовые шаблоны пользователя, чтобы создавать виртуальные аватары, которые реагируют эмпатически и динамично, адаптируя свое поведение к эмоциям пользователя.
- Прогностическое обслуживание в приложениях дополненной реальности. Анализируя визуальные данные с промышленного оборудования, компьютерное зрение на базе искусственного интеллекта может предсказывать потенциальные сбои и направлять технических специалистов в процессах ремонта с использованием дополненной реальности.
Лучшие проекты виртуальной и дополненной реальности с открытым исходным кодом
Сообщество открытого исходного кода играет ключевую роль в продвижении компьютерного зрения для AR/VR. Предлагая свободно доступные ресурсы, такие как платформы, библиотеки и наборы данных, открытый исходный код позволяет разработчикам и исследователям создавать новаторские приложения.
Вот несколько примечательных вкладов сообщества в разработку инструментов дополненной и виртуальной реальности с открытым исходным кодом:
- OpenCV . Гибкая библиотека для приложений компьютерного зрения в реальном времени. OpenCV часто используется для обработки изображений, отслеживания объектов и приложений AR/VR.
- ARKit. Фреймворк Apple для создания дополненной реальности на устройствах iOS обеспечивает доступ к камере, LiDAR и возможностям отслеживания движения.
- ARCore. Фреймворк Google для создания дополненной реальности на устройствах Android предлагает схожие с ARKit функции.
- SUN3D Стэнфорда. Крупномасштабный набор данных изображений с соответствующими аннотациями 3D-сцен представляет ценность для обучения алгоритмов распознавания объектов и понимания сцен.
- Matterport3D. Полная коллекция 3D-сканов внутренних помещений, полезная для разработки и тестирования на компьютерах алгоритмов пространственного картирования и навигации в дополненной и виртуальной реальности.
- ReplicaNet. Набор данных синтетически сгенерированных изображений и 3D-моделей , предлагающий контролируемую среду для обучения и оценки алгоритмов компьютерного зрения в различных условиях.
Оптический поток в дополненной реальности с OpenCV
Тенденции в области компьютерного зрения для дополненной и виртуальной реальности
Будущее компьютерного зрения в дополненной и виртуальной реальности полно захватывающих возможностей:
- Гиперреалистичные впечатления. Достижения в области рендеринга, распознавания объектов и понимания сцен создадут практически неразличимые сочетания физического и цифрового миров.
- Аффективные вычисления. Системы виртуальной и дополненной реальности будут распознавать эмоции пользователей и реагировать на них с помощью выражений лица, анализа голоса и физиологических данных, что приведет к более персонализированному и увлекательному опыту.
- Смешанная реальность (MR). Границы между AR и VR будут продолжать размываться, создавая реальные и виртуальные среды со все более сложными взаимодействиями.
- Повсеместная дополненная реальность. Поскольку устройства дополненной реальности становятся меньше и все более интегрированными в повседневные носимые устройства, компьютерная реальность позволит взаимодействовать с цифровым миром.
Подводя итог, можно сказать, что роль компьютерного зрения в AR/VR является основой для реалистичных и захватывающих впечатлений. Благодаря своим возможностям, варьирующимся от управления жестами и идентификации объектов до взаимодействия в реальном времени и пространственного картирования, окружающая среда меняет то, как мы с ней взаимодействуем. Благодаря своей способности решать насущные проблемы, продвигать сотрудничество с открытым исходным кодом и принимать непрерывные инновации, компьютерное зрение продолжит раздвигать границы виртуального мира. Это изменит ход реального взаимодействия человека и компьютера и перевернет множество отраслей.