Улучшение аналитики гандбола с помощью компьютерного зрения и машинного обучения: экспериментальный подход

15
views

Последние достижения в области искусственного интеллекта (ИИ) усилили взаимодействие между спортом и цифровыми технологиями. Однако, в отличие от широко изучаемых видов спорта, таких как футбол и баскетбол, гандболу уделяется ограниченное внимание со стороны научного сообщества, несмотря на его динамичный характер и стратегическую важность. Данное исследование посвящено обнаружению объектов в гандболе и нацелено на ключевые объекты, такие как игроки, судьи, вратари и мяч. Был создан всеобъемлющий набор данных посредством процесса совместной аннотации, состоящий из аннотированных изображений, извлеченных из реальных гандбольных матчей. Затем модель YOLOv8 была обучена и оценена на этом наборе данных для оценки ее эффективности в распознавании объектов.

Предложенный подход достиг точности обнаружения объектов в 86,8% на относительно небольшом отложенном тестовом наборе, что является показательным первым эталоном для применения современных моделей машинного обучения к гандболу. Насколько нам известно, набор данных, созданный в этом исследовании, является первой всеобъемлющей коллекцией аннотированных изображений гандбола, предоставляя ценный ресурс для дальнейших исследований.

Объединяя спортивную аналитику и компьютерное зрение, данное исследование способствует развитию оценки эффективности в гандболе. Полученные предварительные результаты указывают на потенциальные направления для будущих систем реального времени и практических применений, таких как улучшенное понимание эффективности игроков, динамики команды и принятия стратегических решений.

1. Введение

В последние годы конвергенция спорта и цифровых технологий открыла новые возможности для инноваций, особенно благодаря интеграции Интернета вещей (IoT), машинного обучения (ML) и компьютерного зрения. IoT относится к взаимосвязанной сети физических устройств, оснащенных датчиками, программным обеспечением и средствами связи, позволяющими им собирать и обмениваться данными [1]. Устройства IoT, такие как подключенные камеры, генерируют непрерывные потоки визуальных данных, что позволяет проводить углубленный анализ спортивных событий.

Машинное обучение (МО), являющееся подмножеством искусственного интеллекта (ИИ), предоставляет алгоритмы, способные автоматически обучаться и делать прогнозы на основе данных без явного программирования. Используя огромные массивы данных, алгоритмы МО могут выявлять скрытые закономерности и предоставлять ценные аналитические данные. В приложениях компьютерного зрения МО играет решающую роль в извлечении признаков из изображений и видео для решения визуальных задач, таких как обнаружение и распознавание объектов. Системы компьютерного зрения могут анализировать эти данные для точной идентификации ключевых объектов, таких как игроки, судьи и оборудование, в режиме реального времени.

Несмотря на прогресс в спортивных технологиях, по-прежнему существует значительная нехватка общедоступных наборов данных, специально предназначенных для гандбола. Этот вид спорта характеризуется скоростью и стратегической сложностью. Нехватка ресурсов ограничивает разработку автоматизированных систем для анализа производительности, тактической оценки и поддержки судейства. Кроме того, существующие проблемы, такие как низкая частота кадров камеры и визуальная сложность в условиях плотной застройки (где игроки плотно сгруппированы у ворот, а взаимное перекрытие снижает надежность обнаружения), затрудняют точное обнаружение игроков и мяча.

Данное исследование восполняет эти пробелы, создавая всеобъемлющий набор данных аннотированных изображений гандбольных матчей и разрабатывая инструменты для автоматизированного анализа гандбольных игр. Новизна этой работы заключается в ее фокусе на гандболе, относительно малоизученном виде спорта в спортивной аналитике, а также в предоставлении открытых ресурсов для будущих исследований и разработок.

Основные результаты данного исследования заключаются в следующем:

  • Создание и публикация общедоступного аннотированного набора данных изображений по гандболу.
  • Разработка инструментов для автоматизированного анализа гандбольных матчей.
  • Обсуждение ключевых технологических проблем в автоматизированном анализе гандбольных матчей.
  • Основа для будущих исследований в области гандбольной аналитики и спортивных технологий.

Практическое значение этого исследования распространяется на множество заинтересованных сторон. Тренеры могут использовать систему для выявления тактических моделей и улучшения принятия решений. Игроки могут анализировать индивидуальную игру, чтобы выявлять сильные и слабые стороны. Судьи могут извлечь пользу из поддержки в обнаружении нарушений и правил. Генерация статистики и визуализаций в реальном времени может улучшить впечатления от просмотра для болельщиков и телевещателей. В более широком смысле, мотивация этого исследования отражает признание того, что возможности человека в спорте достигли плато, что подпитывает растущий интерес к потенциалу технологий для повышения эффективности тренировок и анализа [2]. Быстрый рост исследований в области спортивных технологий в последние годы, как показано в [3], еще больше подчеркивает эту тенденцию.

Дальнейшая структура данной статьи следующая. В разделе 2 рассматривается обзор литературы по теме исследования. Обсуждаются предпосылки для изучения спорта и гандбола в частности, а также ключевые технологии, используемые в исследовании. В разделе 3 представлен и обсуждается подход, использованный в данном исследовании, а также дается обзор факторов, повлиявших на наши решения. В разделе 4 описывается реализация предложенного подхода и экспериментальная установка. В разделе 5 обсуждаются результаты. В разделе 6 подводятся итоги, приводятся основные результаты, выявленные ограничения и перспективы дальнейших исследований.

2. Обзор литературы и предпосылок

В этом разделе представлена ​​предыстория исследования по трем темам: гандбол как вид спорта и современная аналитическая среда; ключевые технологии (Интернет вещей, машинное обучение и компьютерное зрение), лежащие в основе автоматизированного анализа спортивных данных; и существующая литература по автоматизированному анализу в гандболе и смежных видах спорта, с указанием пробелов, которые восполняет данное исследование.

2.1. Спорт и гандбол

В мире, где малоподвижный образ жизни стал нормой, спорт продолжает занимать особое место в человеческом обществе, предлагая физическое благополучие, радость и азарт. Интеграция цифровых технологий в спорт позволила добиться значительных успехов в тренировках спортсменов, мониторинге результатов и вовлечении зрителей. Интеллектуальные спортивные тренировки (SST), которые сочетают в себе носимые устройства, датчики, устройства Интернета вещей (IoT) и интеллектуальные инструменты анализа данных, все чаще используются для оптимизации тренировок спортсменов при минимизации физической нагрузки [3]. Помимо спортсменов, технологические инновации, такие как дополненная реальность (AR) и отслеживание в реальном времени, улучшают опыт зрителей и телевещателей.

Хотя разработки в области тактической поддержки и контроля (SST) широко применяются в таких видах спорта, как футбол и баскетбол, гандбол (спорт, характеризующийся скоростью, интенсивностью и тактической сложностью) остается относительно малоизученным в контексте SST. Существующие технологии, такие как отслеживание на основе датчиков и системы видеоповторов, продемонстрировали свою ценность в улучшении принятия решений и повышении зрелищности в других командных видах спорта. Однако аналогичные применения в гандболе ограничены.

Гандбол имеет долгую историю, восходящую к ранним версиям в Древнем Риме и Средневековье, а первые международные игры были организованы в 1920-х и 1930-х годах [4]. Сегодня в этом виде спорта зарегистрировано более семи миллионов игроков по всему миру, участвующих в динамичных матчах, состоящих из двух 30-минутных таймов, с командами из шести полевых игроков и одного вратаря. Несмотря на свою популярность, анализ эффективности в гандболе по-прежнему в значительной степени опирается на ручное наблюдение. Эти традиционные методы ограничены человеческими ошибками, высоким темпом игры и ограниченным объемом сбора данных. Следовательно, автоматизация стала важнейшим шагом для развития оценки эффективности на основе данных, тактического анализа и поддержки судейства.

2.2. Ключевые технологии автоматизации анализа гандбольных матчей

Последние достижения в спортивных технологиях показывают, что автоматизированный анализ гандбольных матчей может быть достигнут путем сочетания устройств Интернета вещей (IoT), машинного обучения (ML) и методов компьютерного зрения. Эти технологии решают такие проблемы, как высокая скорость игры, частое перекрытие мяча и необходимость получения информации в режиме реального времени. Для анализа гандбольных матчей могут быть применены следующие технологии:

(а) Подходы на основе Интернета вещей:

  • Решения на основе датчиков: Такие компании, как Kinexon, используют сверхширокополосные (UWB) и инерциальные измерительные блоки (IMU) для отслеживания движений игроков [5]. Эффективность таких систем в спортивной аналитике продемонстрировали Фойна и др. [6]. 
  • Решения на основе камер: Камеры, работающие на основе событий, такие как Prophesee [7], системы слежения с несколькими камерами [8] и стереокамеры, такие как Zed2 [9], предоставляют богатые визуальные данные для анализа матчей.

(б) Машинное обучение (МО): Методы МО позволяют автоматически обучаться на больших массивах данных для распознавания закономерностей, прогнозирования результатов игроков и оценки рисков травм. В контексте гандбола МО может применяться для моделирования траекторий игроков, прогнозирования вероятности забития голов и оптимизации тактических стратегий.

(с) Компьютерное зрение: Методы компьютерного зрения, часто в сочетании с машинным обучением, анализируют изображения и видео для обнаружения и отслеживания ключевых объектов, таких как игроки, судьи и мяч. Методы, предложенные Шрапфом и др. [8], иллюстрируют потенциал компьютерного зрения в аппроксимации траекторий и идентификации игровых событий с высокой точностью.

(d) Интеграция технологий: слияние Интернета вещей, машинного обучения и компьютерного зрения создает комплексную основу для автоматизированного анализа гандбольных матчей. Системы на основе камер обеспечивают визуальные потоки, данные датчиков фиксируют скорость и движение мяча, а модели машинного обучения синтезируют эти входные данные для получения практических рекомендаций. Вместе эти технологии позволяют тренерам и судьям принимать решения в режиме реального времени, проводить тактическую оценку для команд и улучшать взаимодействие с болельщиками и телевещателями.

2.3. Обзор литературы
2.3.1. Существующие исследования в области гандбола и смежных видов спорта

В отличие от широко изучаемых видов спорта, таких как футбол, исследования в области автоматизированного анализа гандбола остаются ограниченными. Тем не менее, несколько подходов из смежных видов спорта предоставляют ценные сведения, которые можно адаптировать. Фойна и др. [6] использовали технологию радиочастотной идентификации (RFID), достигнув точности позиционирования 1–2 м, хотя эта точность остается недостаточной для быстрой динамики гандбола.

Подходы компьютерного зрения, такие как продемонстрированные Шрапфом и др. [8], позволяют более точно отслеживать игроков и оценивать траекторию. Валланс и др. [1] исследовали внутренние факторы для прогнозирования травм, предлагая перспективу, актуальную для мониторинга производительности. В контексте распознавания действий Хост и др. [11] применили сети долговременной кратковременной памяти (LSTM), демонстрируя потенциал глубокого обучения для обнаружения событий в спортивных видео. Наконец, набор данных и таксономия, представленные Бирманом и др. [12], представляют собой важный шаг к стандартизированным ресурсам, которые необходимы для дальнейших исследований в этой области.

2.3.2. Выводы и ограничения

Существующие исследования выявили несколько важных моментов. Во-первых, компьютерное зрение показало многообещающие результаты в отслеживании игроков и распознавании их активности [811]. Во-вторых, прогностическое моделирование травм [10] подчеркивает потенциал методов, основанных на данных, за пределами анализа производительности. Однако большинство существующих подходов сосредоточены на видах спорта, отличных от гандбола, и результаты не могут быть напрямую перенесены из-за различий в скорости игры, правилах и тактической сложности. Кроме того, хотя Бирманн и др. [12] предоставили набор данных и таксономию, эта область по-прежнему страдает от недостатка общедоступных данных, что препятствует воспроизводимости и крупномасштабному сравнительному анализу.

2.3.3. Пробелы и проблемы

В литературе были выявлены три повторяющиеся проблемы:

  • Недостаток наборов данных: Общедоступные наборы данных по гандболу встречаются редко, что ограничивает разработку надежных и обобщаемых моделей [12].
  • Разрыв между исследованиями и практикой: Как показали интервью с тренерами и игроками, между исследователями и практиками сохраняется разрыв. Это снижает практическую применимость технологических решений.
  • Технические ограничения: Системы на основе датчиков сталкиваются с такими проблемами, как отсутствие данных и шум [6], в то время как подходы компьютерного зрения испытывают трудности с окклюзией, переполненными сценами и быстрым темпом гандбольных матчей [8]. Исследователям часто приходится разрабатывать собственные инструменты, что отнимает много времени и чревато ошибками.

В целом, существующие исследования демонстрируют потенциал Интернета вещей (IoT), компьютерного зрения и машинного обучения для спортивной аналитики; однако в контексте гандбола остаются значительные пробелы. В этой области отсутствуют крупномасштабные аннотированные наборы данных, практические инструменты и надежные системы, способные обрабатывать динамику спорта.

Данное исследование направлено на решение этих проблем путем сосредоточения внимания на создании наборов данных, разработке инструментов и применении технологии стереокамер для повышения автоматизации и эффективности анализа гандбола. Хотя более широкий контекст этой работы помещает автоматизированный анализ гандбола в экосистему IoT с улучшенным визуальным восприятием, технический вклад этого исследования сосредоточен конкретно на компьютерном зрении и машинном обучении: создании аннотированного набора данных изображений гандбола и сравнительном анализе современных моделей обнаружения объектов. Вопросы аппаратного обеспечения IoT, включая выбор камеры и интеграцию нескольких датчиков, обсуждаются как контекстные мотивы и направления для будущего развертывания системы, а не как основные реализованные компоненты.

3. Подход

Для устранения некоторых из упомянутых выше ограничений данное исследование сосредоточилось на трех основных частях, направленных на улучшение качества и применимости спортивной аналитики. Эти части включали:

  • Сокращение разрыва между тренерами/игроками и исследователями путем проведения интервью с обеими группами для понимания их потребностей, предпочтений и проблем, связанных с использованием спортивной аналитики.
  • Сбор данных и обучение модели машинного обучения путем сбора видеоданных, извлечения из них кадров и применения методов компьютерного зрения и глубокого обучения для извлечения релевантных признаков и закономерностей.
  • Краткий обзор технологий видеокамер с рассмотрением современного состояния и будущих тенденций в системах видеокамер и датчиках для спортивной аналитики.

Эти три части легли в основу смешанного подхода к исследованию, который объединил качественные и количественные данные для ответа на исследовательский вопрос.

В данном исследовании используется смешанный подход для совершенствования спортивной аналитики в гандболе. Методология включает в себя:

  • качественные интервью с тренерами и игроками для выявления практических потребностей и проблем;
  • Разработка наборов данных и обучение моделей компьютерного зрения для обнаружения объектов;
  • Исследование технологий камер для поддержки анализа на основе глубины.

Перед началом интервью все участники были проинформированы о цели исследования, и у них было получено устное информированное согласие до их включения в исследование. Такой подход был выбран ввиду минимального риска, связанного с исследованием. Все процедуры проводились в соответствии с Декларацией Хельсинки и были одобрены Комитетом по этике Университета Южной Африки (номер ссылки: 2022/CSET/SOC/008).

3.1. Собеседования с тренером и игроками

Чтобы преодолеть разрыв между исследователями и практиками, мы провели полуструктурированные интервью с тремя профессиональными тренерами по гандболу, одним баскетболистом и одним гандбольным аналитиком. Включение баскетболиста позволило получить данные для сравнения в рамках различных видов спорта. Участники были отобраны методом целенаправленной выборки на основе их профессионального опыта. Перспективы тренеров и аналитиков были выбраны в приоритетном порядке, поскольку они представляют собой основных конечных пользователей системы анализа производительности. Прямое взаимодействие с гандболистами определено как приоритетное направление для будущих исследований.

Интервью проводились в форме открытых вопросов, направленных на выявление следующих аспектов:

  • Современные методы анализа производительности;
  • проблемы сбора и интерпретации данных, а также;
  • Необходимые аналитические инструменты и результаты.

Каждое интервью длилось приблизительно 45 минут и записывалось на аудио с согласия участников. Стенограммы анализировались с использованием тематического кодирования, следуя шестиэтапной методологии Брауна и Кларка, для выявления повторяющихся тем.

Основные выводы включали:

  • Сбор данных: Тренеры отметили, что ручной сбор данных занимает много времени и часто препятствует систематическому анализу. Тем не менее, неполные данные воспринимались как более ценные, чем их отсутствие.
  • Психологические аспекты: Тренеры подчеркнули, что психология игрока оказывает сильное влияние на результативность, поэтому необходимы аналитические методы, учитывающие контекстуальные и личностные факторы.
  • Показатели на уровне команды важнее индивидуальных: данные о построении команды, коллективных усилиях и тактическом исполнении были признаны более полезными, чем индивидуальная статистика.
  • Проблема качества данных: по сравнению с такими видами спорта, как баскетбол (НБА), аналитика гандбола страдает от ограниченной надежности и низкого качества наборов данных.

Полученные результаты оказали непосредственное влияние на ряд технических решений в данном исследовании:

  • Многоклассовая схема аннотирования: акцент тренеров на необходимости одновременного наблюдения за всеми участниками матча побудил их к аннотированию четырех классов объектов (игрок, вратарь, судья, гандбол), а не к более простому одноклассовому подходу.
  • Приоритет открытых наборов данных: респонденты назвали дефицит данных ключевым препятствием.
  • Прозрачная отчетность по каждому классу: прагматичный подход специалистов, согласно которому неполные данные ценнее отсутствия данных, повлиял на наше решение честно сообщать о показателях истинно положительных результатов по каждому классу, включая низкий показатель обнаружения гандбола.
  • Выявленный пробел: Сосредоточение внимания на командных и коллективных метриках показало, что обнаружение объектов на уровне кадра необходимо, но недостаточно; этот пробел четко обозначен как известное ограничение и направление будущих исследований в разделах 5.5 и 6.2 .
3.2. Разработка наборов данных и моделей компьютерного зрения

В этом разделе описывается, как мы собрали набор данных и настроили инфраструктуру для использования данных в моделях машинного обучения. Количественная составляющая этого исследования включала два основных этапа: создание вручную аннотированного набора данных изображений гандбольных матчей с помощью специально разработанных инструментов для помощи аннотаторам; и обучение и оценка современных моделей обнаружения объектов на этом наборе данных. Наш подход был направлен на снижение рабочей нагрузки на каждого аннотатора за счет использования инструментов и краудсорсингового распределения задач аннотирования, а не на полную замену ручного аннотирования. Система состояла из трех этапов: извлечение данных, аннотирование и контролируемое обучение. На рисунке 1 показана архитектура системы. В следующих подразделах объясняется каждый компонент и используемые методы.

Рисунок 1. Общий вид системы.

3.2.1. Извлечение и аннотирование данных

Мы извлекли изображения из видеозаписей гандбольных матчей с помощью специально разработанного скрипта. Мы аннотировали изображения, обводя ограничивающие рамки вокруг четырех целевых объектов: гандбольного мяча, игрока, вратаря и судьи. На рисунке 2 показан пример аннотаций.

Рисунок 2. Пример аннотированного кадра из набора данных по гандболу.

Ограничивающие рамки раскрашены в соответствии с классом объекта (серый: игрок, зеленый: вратарь, красный: судья, желтый: гандбол). Были выбраны кадры, иллюстрирующие различные уровни сложности обнаружения, включая сцены с несколькими игроками, размытие в движении, частичное перекрытие и частичное скрытие мяча.

Мы аннотировали 2500 изображений по четырем категориям объектов: игрок, вратарь, судья и мяч. Аннотирование проводилось совместно с использованием платформы Roboflow (Roboflow Inc., Де-Мойн, Айова, США), которая позволила создавать ограничивающие рамки и контролировать версии набора данных. Для повышения охвата и уменьшения предвзятости был применен подход краудсорсинга: добровольцы привлекались по электронной почте и через социальные сети, а задачи по аннотированию распределялись между участниками. Итоговый набор данных был разделен на 70% для обучения, 15% для валидации и 15% для тестирования, чтобы обеспечить воспроизводимость результатов оценки модели.

3.2.2. Выбор и обучение модели

Мы обучили модель компьютерного зрения на размеченном наборе данных с использованием контролируемого обучения. Контролируемое обучение — это метод обучения на размеченных примерах и построения прогнозов или классификаций на основе входных данных. Модель учится обнаруживать объекты и их ограничивающие рамки путем точной настройки своих параметров.

На рисунках 3 и 4 представлены общий вид и архитектура сверточной нейронной сети (CNN) соответственно, которая является типом нейронной сети, используемой в компьютерном зрении.

Рисунок 3. Общий вид сверточного слоя (* обозначает операцию свертки).

Рисунок 4. Полная архитектура стандартной сверточной нейронной сети.

Мы протестировали три модели компьютерного зрения на нашем наборе данных:

  • YOLOv8 [13]: Современная модель обнаружения объектов, основанная на оригинальной YOLO [ 14 ].
  • YOLONAS [15]: Новая модель, которая обещает лучшие результаты при сокращении времени вывода.
  • InternImage (версия InternImage-L, OpenGVLab, Шанхай, Китай) [16]: CNN, которая включает слой типа трансформера для уточнения обнаружения объектов и достигает наивысшего показателя mAP на наборе данных COCO.

Эти модели были выбраны на основе их производительности на эталонных наборах данных, соответствия задаче обнаружения объектов в спортивной аналитике и пригодности для приложений реального времени. YOLOv8 был выбран за его передовую точность и эффективность, а YOLONAS — за потенциал повышения производительности за счет более быстрого времени вывода. InternImage был выбран за его высокую точность и способность уточнять обнаружения с помощью трансформерного слоя, что особенно актуально для сложных сцен с множеством объектов и перекрытиями.

Однако, используя предварительно обученные веса, эти модели с трудом точно идентифицировали гандбол и всех игроков, часто обнаруживая нерелевантные объекты, такие как стулья и зрители. Эти ограничения сделали их непригодными для точной идентификации в условиях матча. Для преодоления этих ограничений мы доработали модели, сосредоточив их внимание исключительно на обнаружении целевых объектов с большей точностью.

3.3. Технология камер

Для изучения возможностей усовершенствования аппаратного обеспечения в области гандбольной аналитики мы исследовали и протестировали две новые технологии камер:

  • Камеры, основанные на событиях: Камеры, основанные на событиях, асинхронно фиксируют изменения интенсивности на уровне пикселей, а не записывают полные кадры. Это позволяет эффективно отслеживать движение с высоким временным разрешением. Prophesee [7] предложил такие датчики, имитирующие активность сетчатки человека. Однако из-за высокой стоимости и ограниченной доступности камеры, основанные на событиях, не использовались в этом исследовании, но считаются перспективными для будущих исследований.
  • Стереокамеры: Стереокамеры используют две камеры для оценки глубины сцены. Мы использовали камеру Zed 2 Camera 2, пассивную стереокамеру, способную оценивать глубину до 40 м. Она также имеет полный комплект для разработки программного обеспечения (SDK), включающий нейронные сети, интеграцию с операционной системой для роботов (ROS) и детектор объектов. Стереокамеры позволяют осуществлять 3D-реконструкцию игры.

Для полного охвата площадки мы предлагаем использовать систему из четырех камер, расположенных в каждом углу гандбольной площадки. Такая конфигурация позволяет осуществлять трехмерную реконструкцию траекторий игроков и мяча, уменьшает проблемы с перекрытием объектов и обеспечивает синхронизированную аналитику с улучшенной глубиной резкости.

3.4. Обоснование подхода и ограничения

Обоснование подхода, использованного в данном исследовании, включает в себя:

  • Использование смешанных методов: интервью обеспечили практическую значимость, а эксперименты в области компьютерного зрения внесли вклад в техническую строгость.
  • Основная задача при создании набора данных: разработка общедоступного набора данных для решения проблемы нехватки данных, специфичных для гандбола, выявленной в предыдущих исследованиях.
  • Выбор моделей: YOLOv8, YOLONAS и InternImage были выбраны за оптимальный баланс точности, скорости и устойчивости к перекрытиям.
  • Камеры: Приоритет был отдан стереоскопическому зрению из-за его доступности и невысокой стоимости по сравнению с датчиками, работающими на основе событий.

К ограничениям относятся небольшой размер выборки интервью (не было опрошено ни одного гандболиста); ограниченный эффективный обучающий набор данных (119–508 изображений на экспериментальную фазу из 2500 аннотированных); отсутствие k-кратной перекрестной проверки, проверки статистической значимости и представления доверительных интервалов; небольшой тестовый набор из 72 изображений, что ограничивает статистическую надежность оценок производительности; и ограниченная среда тестирования для стереокамер.

Поэтому представленные метрики следует интерпретировать как ориентировочные показатели, а не как окончательные заявления о производительности. Устранение этих статистических ограничений с помощью k-кратной перекрестной проверки, многократных экспериментов с представлением дисперсии и тестирования на независимых внешних наборах данных определяется как направление для будущих исследований. Тем не менее, методологическая разработка обеспечивает воспроизводимую основу для будущих исследований в области гандбольной аналитики.

4. Реализация

В этом разделе мы описываем реализацию подхода и идей, а также детали систем, разработанных для устранения вышеупомянутых пробелов в исследованиях.

4.1. Обработка данных

Мы использовали набор данных EIGD [ 12 ], который состоит из 25 видеороликов, каждый продолжительностью 5 минут, записанных со скоростью 30 кадров в секунду (FPS), что в итоге дает приблизительно 225 000 кадров.

Мы случайным образом отобрали 100 кадров из каждого видео, получив набор данных из 2500 изображений. Это число было выбрано для того, чтобы сбалансировать возможность аннотирования (с учетом доступности добровольцев, затрат на контроль качества и времени проверки) с целью создания достаточно большого набора данных для проведения значимых экспериментов по обучению модели. Важно отметить, что на момент проведения основных экспериментов только часть изображений прошла полный процесс аннотирования и проверки качества: 119 изображений были полностью проверены на первом этапе эксперимента, а 508 — на втором. Остальные находились в процессе проверки или были помечены как низкокачественные. Такая поэтапная доступность объясняет расхождение между общим размером набора данных и размерами обучающего набора, указанными в разделе 5.3 . Мы назвали каждое изображение <video_name>@<frame_number>.jpg и сохранили метаданные извлеченных кадров в файлах JSON. Это позволило нам отслеживать исходные кадры и учитывать различные частоты кадров.

Мы получили набор изображений для аннотирования и поделились кодом в общедоступном репозитории [17]. Мы планируем добавить инструмент командной строки с различными опциями, чтобы сделать процесс обработки данных более гибким и удобным для пользователя.

4.2. Инструменты и новое программное обеспечение

Roboflow [18] использовался для аннотирования изображений из набора данных EIGD [12], который состоит из 25 видеороликов, каждый продолжительностью 5 минут, со скоростью 30 кадров в секунду. Каждый интересующий объект, такой как гандбольный мяч, игрок, судья и вратарь, был обведен рамкой, чтобы сделать набор данных подходящим для обучения модели обнаружения объектов. Для отслеживания мяча в размытых кадрах был разработан инструмент Annotations Helper Tool — новое веб-приложение, которое воспроизводит последние 5 секунд видео до определенного кадра.

Инструмент использует метаданные, сгенерированные Frozen Video, скриптом на Python (версия 3.9, Python Software Foundation, Уилмингтон, Делавэр, США), который случайным образом выбирает 100 кадров из каждого видео и называет их <video_name>@<frame_number>.jpg. Annotations Helper Tool и Frozen Video упростили процесс аннотирования и подготовили данные для анализа. Инструмент Annotations Helper доступен по адресу https://tofylion.github.io/annotations_helper (дата обращения: 7 апреля 2026 г.). Инструмент доступен в виде открытого исходного кода [19].

4.3. Волонтерская кампания по аннотированию данных

Мы запустили краудсорсинговую кампанию по набору добровольцев для аннотирования изображений из набора данных EIGD [12] с использованием Roboflow [18]. Мы создали Google Form для предоставления обзора проекта и получили 70 регистраций. Мы отправили дополнительную форму и обучающее видео, чтобы объяснить процесс аннотирования, и пригласили 35 зарегистрироваться на Roboflow. Мы отправляли обновления о ходе работы и благодарственные письма активным участникам каждые две недели.

Однако через месяц мы заметили снижение продуктивности аннотирования. Для решения этой проблемы мы создали систему электронных писем с отслеживанием прогресса и новый формат, а также сервер Discord для развития сообщества и сотрудничества. Эти меры повысили объем аннотирования и вовлеченность участников. Мы также разработали таблицу Google Sheets для отслеживания аннотаций, отправленных каждым волонтером, и управления заданиями. Эти стратегии позволили нам создать сильное сообщество участников проекта.

4.4. Модели и настройка
Для обучения на нашем наборе данных по гандболу мы выбрали три модели компьютерного зрения: YOLOv8, YOLO-NAS и InternImage. Каждая модель имеет свои преимущества и недостатки с точки зрения точности, задержки и сложности. Для обучения каждой модели мы использовали различные аппаратные ресурсы и виртуальные среды в соответствии с ее требованиями. В этом подразделе мы подробно опишем процессы выбора и настройки моделей.
4.4.1. Наличие оборудования

Наша персональная конфигурация включает ноутбук с мобильным графическим процессором NVIDIA RTX2070 (Nvidia Corporation, Санта-Клара, Калифорния, США), имеющим 8 ГБ видеопамяти (VRAM). Это позволяет нам обучать модели быстрее, чем с использованием центрального процессора (CPU); однако это также ограничивает максимальный размер модели и размер пакета данных, которые можно использовать. Кроме того, у нас есть доступ к лаборатории с двумя графическими процессорами NVIDIA RTX3090, каждый с 24 ГБ видеопамяти. Это обеспечивает нам большую гибкость и мощность для обучения более крупных и сложных моделей.

4.4.2. Выбор модели

Мы выбрали три модели, основываясь на их производительности и пригодности для задач обнаружения объектов. Эти модели:

  • YOLOv8 [13]: Популярная и быстрая модель обнаружения объектов, разработанная компанией Ultralytics, которая включает в себя различные улучшения по сравнению с предыдущими версиями YOLO.
  • YOLO-NAS: Вариант YOLO, использующий поиск нейронной архитектуры (NAS) для автоматического проектирования индивидуальной архитектуры модели для задач обнаружения объектов.
  • InternImage [16]: Современная модель компьютерного зрения, использующая трансформерный слой поверх традиционной сверточной нейронной сети.
4.4.3. Обучение моделей

Мы обучали каждую модель, используя отдельные файлы Jupyter Notebook и отдельные виртуальные среды с помощью Anaconda (Python 3.9). Подробности обучения для каждой модели следующие: YOLOv8: Мы обучали модель YOLOv8 в течение 300 эпох с размером изображения 640 × 640 пикселей и размером пакета из шести изображений в каждом пакете, используя мобильный графический процессор NVIDIA RTX2070. YOLO-NAS: Мы обучали модель YOLO-NAS в течение 400 эпох с размером изображения 640 × 640 пикселей и размером пакета из четырех изображений в каждом пакете, используя мобильный графический процессор NVIDIA RTX2070. InternImage: Мы обучали модель InternImage в течение 300 эпох с размером изображения 1330 × 800 пикселей и размером пакета из четырех изображений в каждом пакете, используя один графический процессор NVIDIA RTX3090.

4.5. Оценка обучения

После обучения нескольких моделей нам необходимы метрики для быстрого сравнения различных моделей и оценки их эффективности в реальных условиях. Для измерения производительности каждой модели использовались следующие метрики:

  • Пересечение над Союзом (IoU);
  • Матрица ошибок: особенно показатель истинно положительных результатов для каждой категории;
  • Средний показатель точности (mAP).

5. Результаты и оценка

В этом разделе мы обсуждаем ход волонтерской кампании и результаты каждой модели, которые были оценены с использованием метрик, предложенных в предыдущем разделе. Мы также сравниваем эффективность различных моделей и интерпретируем данные.

5.1. Вопросы исследования

Целью данного исследования было ответить на следующие исследовательские вопросы:

  • Как создать полный и аннотированный набор данных изображений гандбольных мячей для упрощения автоматизированного анализа?
  • Какие проблемы и возможности связаны с использованием различных моделей компьютерного зрения для обнаружения объектов в гандболе?
  • Каковы перспективы и существующие ограничения интеграции передовых технологий видеосъемки, таких как событийные и стереокамеры, в систему анализа гандбольных матчей?

Результаты, представленные в следующих подразделах, отвечают на эти исследовательские вопросы следующим образом: RQ1 рассматривается в разделе 5.2 (набор данных и результаты кампании); RQ2 рассматривается в разделах 5.3 и 5.4 (производительность модели и сравнение); и RQ3 рассматривается на уровне обсуждения в разделе 3.3 и возвращается к нему в разделе 6.2 , поскольку полное количественное тестирование современных камер выходило за рамки экспериментальной части данного исследования.

5.2. Волонтерская кампания

Наша кампания успешно внесла свой вклад в аннотирование всего набора данных из 2500 изображений. Из них приблизительно 1500 изображений были аннотированы в рамках краудсорсинговой кампании с участием волонтеров, а оставшиеся 1000 были аннотированы основной исследовательской группой. Это достижение отражает коллективные усилия сообщества и преданность делу участников.

5.3. Производительность моделей

Мы протестировали модели обнаружения объектов на наборе данных и получили интересные результаты, выявив различные закономерности в зависимости от используемых технологий. Эти результаты предоставляют ценную информацию для будущих исследований. В этом разделе мы представляем показатели mAP и матрицу ошибок каждой модели на основе наших тестов. Мы использовали определенную часть набора данных, содержащую 72 изображения с разрешением 640 × 640 пикселей. Это соответствует 15% тестовой выборки из 508 аннотированных изображений, что согласуется с разделением 70/15/15 для обучения/валидации/тестирования, описанным в разделе 3.2.1 для оценки модели.

Эти изображения не были частью процесса обучения ни одной из моделей. Такое разделение гарантирует, что модели оцениваются на неизвестных данных, обеспечивая более точную оценку их способности к обобщению и предотвращая переобучение на обучающем наборе. Важно отметить, что оценка проводилась на отложенном тестовом наборе из 72 изображений, которые не использовались в обучении. Однако, учитывая небольшой размер набора данных, отсутствие k-кратной перекрестной проверки и использование одного экспериментального запуска, представленные метрики следует интерпретировать скорее как ориентировочные, чем окончательные. Они представляют собой первый эталон для обнаружения объектов в гандболе, а не заявление о производительности, готовое к внедрению в производство.

Мы проанализировали производительность моделей и изучили матрицу ошибок, чтобы понять сильные и слабые стороны каждой модели. Эта оценка помогла нам выбрать наиболее подходящие модели для наших задач обнаружения объектов.

5.3.1. Модель управления YOLOv8

Мы оценили модель YOLOv8x, обученную на наборе данных COCO, без дообучения на нашем собственном наборе данных. Эта модель тестировалась только для обнаружения гандбола, поскольку набор данных COCO содержит 80 общих классов и идентифицирует игроков, вратарей и судей как «Человек». В наборе данных COCO есть класс «Спортивный мяч», который мы сравнили с аннотациями «Гандбол» из нашего исходного набора данных.

Контрольная модель YOLOv8 не смогла обнаружить мяч, брошенный рукой, ни на одном из тестовых или обучающих изображений. Это указывает на то, что предварительно обученная модель без тонкой настройки не смогла обнаружить мяч, брошенный рукой, в нашем наборе данных; следовательно, процент истинно положительных результатов обнаружения мяча, брошенного рукой, составил 0%. Мы не смогли рассчитать показатель mAP для контрольной модели, поскольку не смогли оценить обнаружение игрока, судьи и вратаря.

5.3.2. Оценка YOLOv8

Мы обучили несколько версий модели YOLOv8, используя модель YOLOv8X в качестве предварительно обученной базы. Мы протестировали три версии с различными обучающими данными и разрешениями. На рисунках 5 , 6 и 7 показана матрица ошибок для каждой версии.

Рисунок 5. Матрица ошибок для YOLOv8-v1.

Рисунок 6. Матрица ошибок для YOLOv8-v2.

Рисунок 7. Матрица ошибок для YOLOv8-v3.

Первую версию (YOLOv8-v1) мы обучили на 119 изображениях (количество полностью проверенных изображений, доступных на начало экспериментов), увеличенных в пять раз, с разрешением 640 × 640. Вторую версию (YOLOv8-v2) мы обучили на 508 изображениях (отражающих расширенный пул проверенных изображений после второй кампании по аннотированию), увеличенных в пять раз, с тем же разрешением. Полный набор данных из 2500 изображений не использовался в экспериментах, поскольку проверка качества аннотаций продолжалась; значения 119 и 508 представляют изображения, прошедшие полный цикл проверки на каждом этапе эксперимента. Третью версию (YOLOv8-v3) мы обучили на тех же данных, что и версию 2, но с разрешением 1024 × 576. Время обучения варьировалось от 4 до 24 часов на мобильном графическом процессоре RTX2070. Показатель mAP увеличился с 0,847 до 0,868, а количество истинно положительных результатов в гандболе увеличилось с 0,39 до 0,51 по мере увеличения размера обучающих данных. Однако увеличение разрешения не оказало существенного влияния на производительность.

5.3.3. Оценка YOLO-NAS

Мы дообучили модель YOLO-NAS-L, модель быстрого вывода, на 119 обучающих изображениях, увеличенных в пять раз. Обучение заняло приблизительно 6 часов на мобильном графическом процессоре RTX2070. Модель достигла показателя mAP 0,629 и количества истинно положительных результатов по гандболу 0,14, что является низким показателем по сравнению с другими моделями. На рисунке 8 показана матрица ошибок для дообученной модели YOLO-NAS.

Рисунок 8. Матрица ошибок для доработанной версии YOLO-NAS.

5.3.4. Внутренняя оценка изображений

Мы дообучили модель InternImage, созданную по образцу трансформеров, на 119 изображениях с разрешением 640 × 640 пикселей. Обучение заняло приблизительно 33 часа на настольном графическом процессоре RTX3090. Модель достигла показателя mAP 0,718 и количества истинно положительных результатов по гандболу 0,45, что выше, чем у YOLO-NAS-L, но ниже, чем у YOLOv8. Матрица ошибок показана на рисунке 9 .

Рисунок 9. Матрица ошибок для точно настроенного InternImage.

5.4. Сравнение моделей

Мы сравнили производительность YOLOv8, YOLO-NAS-L и InternImage на нашем собственном наборе данных, как показано в таблице 1 .

Модель Разре-шение Count mAP@50 Гандбол Игрок Судья Вратарь FPS
Control 640 × 640 0.00
YOLOv8v1 640 × 640 119 0,847 0,39 0,91 0,94 0,95 15.6
YOLONAS 640 × 640 119 0.6249 0,14 0,82 0,48 0,57 185.5
InternImage 640 × 640 119 0,718 0,45 0,89 0,83 0,84 2.3

YOLOv8 — эффективная и точная модель, YOLO-NAS-L — модель для быстрого вывода результатов, а InternImage — модель, созданная по образцу трансформеров. Мы протестировали различные версии YOLOv8 с разными обучающими данными и разрешениями. Мы протестировали YOLO-NAS-L и InternImage на 119 обучающих изображениях, дополненных пять раз.

Мы заметили, что YOLOv8 достигла наивысшего показателя mAP и доли истинно положительных результатов для гандбола среди моделей, особенно при большем объеме обучающих данных. Эти результаты демонстрируют превосходную производительность YOLOv8 в различных задачах обнаружения объектов. Эффективность YOLOv8 может быть обусловлена ​​улучшенной архитектурой и процессом обучения, включающим передовые методы, такие как межэтапные частичные связи и активация Миша. Однако увеличение разрешения не привело к значительному улучшению производительности, что предполагает, что модель, возможно, достигла своего оптимального уровня производительности при исходном разрешении, или что для использования преимуществ увеличения количества входных признаков могут потребоваться дополнительные обучающие данные.

YOLO-NAS-L показал самый низкий показатель mAP и наименьшую долю истинно положительных результатов в гандболе, что может быть связано с недостаточной тонкой настройкой или недостатком данных. Этот результат согласуется с предыдущими исследованиями методов поиска нейронной архитектуры (NAS), которые часто требуют больших наборов данных и обширного обучения для достижения оптимальной производительности [15]. Методы NAS автоматизируют процесс проектирования архитектур нейронных сетей, исследуя обширное пространство поиска возможных архитектур и выбирая лучшие из них для данной задачи. Однако эффективность алгоритмов NAS сильно зависит от таких факторов, как пространство поиска, выбор гиперпараметров и этапы предварительной обработки [20]. В нашем случае более низкая точность YOLO-NAS-L может быть связана с ограничениями пространства поиска и параметрами архитектуры, используемыми в процессе NAS. Дальнейшая настройка этих параметров может улучшить производительность.

InternImage показал результаты, аналогичные результатам YOLOv8, при меньшем объеме обучающих данных, что демонстрирует потенциал динамических разреженных ядер CNN, вдохновленных графическими трансформерами. Этот результат подтверждает выводы [16], которые подчеркнули способность моделей, вдохновленных трансформерами, достигать высокой точности при ограниченном объеме обучающих данных. Высокая производительность InternImage может быть обусловлена ​​динамическим разреженным ядром, которое позволяет модели фокусироваться на наиболее важных частях изображения и улавливать долгосрочные зависимости между объектами.

Однако эта модель также имела более длительное время обучения и вывода, что может ограничить ее применимость в системах реального времени. Это ограничение является распространенной проблемой для моделей на основе трансформеров, поскольку они часто требуют больше вычислительных ресурсов и времени, чем модели на основе CNN [21]. Будущие исследования могли бы изучить методы оптимизации эффективности динамических разреженных ядер CNN или исследовать их применение в сценариях, где производительность в реальном времени не является критической, например, анализ после игры или отслеживание игроков в течение более длительных периодов.

Модели также демонстрировали трудности в различении игроков, вратарей и судей, а также в обнаружении маленьких или скрытых мячей. Эти проблемы можно решить путем тонкой настройки параметров модели, добавления более разнообразных и аннотированных данных или применения методов постобработки. Дальнейшие улучшения могут включать использование нескольких ракурсов камеры и более качественных/различных датчиков.

В таблице 2 сравниваются различные модели YOLO.

Таблица 2. Сравнение различных моделей YOLO.

Модель Разрешение Count mAP@50 Гандбол Игрок Судья Вратарь FPS
Контроль 640 × 640 0.00
YOLOv8v1 640 × 640 119 0,847 0,39 0,91 0,94 0,95 15.6
YOLOv8v2 640 × 640 508 0,866 0,51 0,97 0,95 0,96 15.6
YOLOv8v3 1024 × 576 508 0,868 0,51 0,92 0,84 0,95 7.4

В таблице 2 разрешение относится к разрешению обучающих изображений. Все изображения, предсказанные моделями, были автоматически изменены в размере перед тем, как быть введенными в сеть. Количество обозначает число уникальных обучающих изображений, использованных каждой моделью.

Гандбол, игрок, судья и вратарь — все эти обозначения указывают на истинно положительные результаты для каждого объекта. Максимальное значение равно 1. Более подробная информация содержится в матрице ошибок для результатов каждой модели. Чем выше число, тем лучше модель идентифицирует данный объект.

Столбец FPS указывает на ожидаемое количество кадров в секунду, которое может быть сгенерировано при запуске модели на видео. Средняя частота кадров видео составляет 30; следовательно, если модель может работать со скоростью 30 кадров в секунду, ее можно использовать в реальном времени. Чем выше FPS, тем быстрее модель идентифицирует объекты в видео. Это относится к FPS изолированного вывода модели, протестированного в нашей среде NVIDIA RTX2070, а не к оценке сквозного конвейера.

5.5. Основные выводы по результатам

Результаты показывают, что YOLOv8 обеспечивает хороший баланс между точностью и скоростью для задач обнаружения объектов. Однако он еще не был протестирован в производственных условиях. InternImage — перспективная модель, способная достигать высоких результатов при ограниченном объеме обучающих данных; однако она требует больше аппаратных ресурсов и времени. YOLO-NAS-L в данный момент не является подходящим вариантом для нашего набора данных; однако его можно будет повторно протестировать с большим объемом данных в будущем.

Количественный анализ режимов ошибок, полученный из матрицы ошибок YOLOv8-v3 ( рисунок 7 ), выявляет различные проблемы в разных классах. Основным узким местом остается обнаружение мяча, забитого рукой, которое страдает от высокого уровня ложноотрицательных результатов (FN) в 49% (истинные мячи, забитые рукой, полностью не обнаружены и классифицированы как фон). Это количественно подтверждает серьезное влияние размытия движения и окклюзии. Кроме того, 21% ложноположительных ошибок модели в отношении фона были неверными предсказаниями мяча, забитого рукой, что указывает на то, что модель испытывает трудности с различением мяча от визуально похожих фоновых артефактов, таких как обувь или разметка площадки. Напротив, человеческие объекты показали гораздо более низкие показатели FN (игроки — 8%, вратари — 4%), хотя наблюдалась незначительная межклассовая путаница, например, 3% судей были ошибочно классифицированы как игроки.

Хотя показатели обнаружения игроков, вратарей и судей достаточно высоки для исследовательского использования, показатель истинно положительных результатов обнаружения гандбольного мяча, составляющий приблизительно 0,51, остается ниже порогового значения, необходимого для надежного применения в реальных условиях или в режиме реального времени. Этот вывод подчеркивает присущую сложность обнаружения небольшого, быстро движущегося и часто перекрываемого объекта с помощью только статического обнаружения на уровне кадров. К основным выявленным сбоям относятся кадры с сильным размытием, вызванным движением мяча, частичное перекрытие игроками или элементами площадки, а также кадры, в которых мяч находится рядом с воротами при аналогичной текстуре фона.

На рисунке 10 представлены типичные случаи успешного и неудачного обнаружения мяча в гандболе в сложных визуальных условиях, когда мяч трудно различить даже для экспертов-аналитиков. Верхний кадр демонстрирует успешное обнаружение, несмотря на сложные элементы фона. Напротив, нижний кадр иллюстрирует типичный случай неудачи (ложноотрицательный результат), когда мяч частично перекрывается во время ловли, и его цвет визуально сливается с цветом майки игрока, что препятствует точному обнаружению моделью.

Рисунок 10. 2. Примеры успеха ( сверху ) и неудачи ( снизу ) в сложных условиях.

6. Выводы и дальнейшая работа

6.1. Выводы

Данное исследование вносит вклад в совершенствование методов обнаружения объектов в гандбольных матчах путем внедрения и тестирования трех моделей компьютерного зрения. Мы внедрили и оценили три передовые модели, добившись значительных улучшений в обнаружении объектов, в частности, гандбольных мячей. Эти результаты закладывают основу для дальнейших исследований в области систем спортивной аналитики в реальном времени.

В данном исследовании были рассмотрены ключевые проблемы обнаружения объектов в гандболе, включая ограниченность наборов данных и адаптивность моделей. Разработав аннотированный набор данных и обучив модели для идентификации игроков, судей, вратарей и мяча, мы продемонстрировали осуществимость автоматизированного анализа и его потенциальные практические применения:

  • Отслеживание производительности в реальном времени: разработанные модели могут служить основой для интеграции в системы видеонаблюдения с целью отслеживания движений игроков и траекторий мяча во время матчей в режиме реального времени, предоставляя тренерам и аналитикам мгновенную обратную связь о производительности игроков и командных стратегиях. Для обеспечения надежного развертывания в реальном времени потребуется временное моделирование, конвейеры отслеживания и существенно расширенные и проверенные наборы данных.
  • Анализ после игры: Аннотированный набор данных и обученные модели закладывают основу для будущих систем, анализирующих записанные матчи, позволяя тренерам выявлять тактические закономерности, оценивать решения игроков и разрабатывать целевые программы тренировок.
  • Помощь арбитрам: Возможности обнаружения объектов, после проверки и подтверждения их точности, могут помочь арбитрам принимать более взвешенные решения, особенно в динамичных или сложных ситуациях, когда отслеживание всех игроков и мяча одновременно может быть затруднено.
  • Автоматическая разметка событий: разработанная система представляет собой базовый проект на начальном этапе, который может быть расширен для автоматической идентификации событий из предварительно записанного матча или в режиме реального времени.

Помимо технических достижений, исследование подчеркивает значимость автоматизации в улучшении процесса принятия решений в гандболе. Тренеры получают надежную статистику для тактического планирования, игроки — объективную обратную связь о своей игре, а судьи — помощь в обеспечении соблюдения правил. В совокупности эти выводы способствуют модернизации и профессионализации гандбольной аналитики.

Данное исследование также выявило области, требующие дальнейшего совершенствования, особенно в отношении качества данных, надежности модели и включения передовых методов, таких как временное моделирование. Полученные результаты определяют дальнейшую стратегию исследований в этой области.

Хотя это исследование представляет собой важный первый шаг, прежде чем эти модели можно будет надежно использовать в реальных условиях матчей, необходимы существенные улучшения в масштабе набора данных, временном моделировании, отслеживании, статистической проверке и оптимизации задержки.

6.2. Дальнейшая работа

Мы улучшили обнаружение объектов в гандболе, особенно мячей. Это закладывает основу для будущих исследований, таких как отслеживание объектов. Однако мы сталкиваемся с некоторыми ограничениями, такими как:

Несмотря на многообещающие результаты данного исследования, некоторые ограничения всё же сохраняются. Для дальнейшего развития автоматизации гандбольной аналитики крайне важно устранить следующие недостатки:

  • Статистическая проверка: Текущие результаты основаны на одном экспериментальном запуске, оцененном на относительно небольшом тестовом наборе из 72 изображений, без k-кратной перекрестной проверки или отчета о дисперсии результатов нескольких запусков. В будущих исследованиях следует отдать приоритет k-кратной перекрестной проверке (например, 5-кратной или 10-кратной) для получения более надежных оценок производительности и доверительных интервалов; многократным экспериментам с различными случайными начальными значениями для количественной оценки изменчивости результатов; и оценке на независимом внешнем наборе данных по гандболу.
  • Технологии видеосъемки: Хотя стереокамеры были протестированы, другие перспективные технологии, такие как камеры, работающие на основе событий, еще не были полностью изучены. В будущих исследованиях следует изучить их интеграцию для захвата более тонких деталей движения и повышения производительности модели.
  • Отзывы тренеров и игроков: Интервью с тренерами и аналитиками предоставили ценные точки зрения; однако размер выборки был ограничен. Расширение взаимодействия с более широкой и разнообразной группой заинтересованных сторон обеспечит более эффективное решение практических задач разработанными системами.
  • Расширение набора данных: Аннотированный набор данных, созданный в этом исследовании, является первым шагом. Его расширение за счет большего количества записей матчей, различных ракурсов камер, данных о женщинах-игроках и аннотаций, специфичных для конкретных действий, улучшит обобщаемость результатов и позволит проводить более сложные анализы, такие как тактическое распознавание.
  • Модели компьютерного зрения: В первую очередь мы сосредоточились на точности обнаружения, а не на скорости вывода. В будущих исследованиях следует уделить приоритетное внимание оптимизации моделей, включая настройку гиперпараметров, легковесные архитектуры и использование временной или глубинной информации для более быстрого и эффективного обнаружения.
  • Отслеживание объектов: Отслеживание объектов — это естественное развитие метода обнаружения объектов. Присвоение сущностям согласованных идентификаторов во времени позволит анализировать модели движения игроков, траектории мяча и тактические построения. Наш набор данных закладывает основу для дальнейших исследований в этом направлении. В будущих итерациях будет учтена временная информация, такая как многокадровое сглаживание, оптический поток или специальные алгоритмы отслеживания, чтобы использовать непрерывность траектории мяча и существенно повысить надежность обнаружения. Кроме того, мы планируем сообщать о вариабельности производительности в нескольких запусках для повышения научной достоверности.
  • Дальнейшая работа также будет включать в себя тестирование задержки в режиме реального времени в ходе полного матча, с учетом накладных расходов на предварительную обработку, узких мест ввода-вывода и вариативности оборудования, чтобы обеспечить более достоверную оценку потенциала развертывания в режиме реального времени.
  • В дальнейших исследованиях мы планируем провести более детальный анализ ошибок. Кроме того, в будущих итерациях модели мы планируем использовать механизмы внимания или сегментацию экземпляров для различения перекрывающихся объектов.

Данное исследование предоставляет предварительные, исследовательские данные о применимости компьютерного зрения и машинного обучения к гандболу — виду спорта, которому уделялось ограниченное внимание в исследованиях спортивной аналитики. Создав новый набор данных, оценив современные модели и изучив передовые технологии камер, мы заложили основу для автоматизированного анализа гандбола. Намеченная дальнейшая работа указывает четкий путь для исследователей, стремящихся трансформировать оценку эффективности, тренерские стратегии и судейские решения в этом динамичном виде спорта.

Литература

  1. IEEE Standard P2413/D0.4.6; IEEE Standard for an Architectural Framework for the Internet of Things (IoT). IEEE: New York, NY, USA, 2019.
  2. Marck, A.; Antero-Jacquemin, J.; Berthelot, G.; Saulière, G.; Jancovici, J.M.; Masson-Delmotte, V.; Gilles, B.; Spedding, M.; Le Bourg, É.; Toussaint, J.F. Are We Reaching the Limits of Homo sapiensFront. Physiol. 20178, 812. [Google Scholar] [CrossRef]
  3. Rajšp, A.; Fister, I., Jr. A systematic literature review of intelligent data analysis methods for smart sport training. Appl. Sci. 202010, 3013. [Google Scholar] [CrossRef]
  4. BBC. Handball-Factfile. Available online: ссылка  (accessed on 30 June 2023).
  5. Kinexon. Kinexon Handball Homepage. Available online: ссылка  (accessed on 30 June 2023).
  6. Foina, A.G.; Badia, R.M.; El-Deeb, A.; Ramirez-Fernandez, F.J. Player Tracker-a tool to analyze sport players using RFID. In Proceedings of the 2010 8th IEEE International Conference on Pervasive Computing and Communications Workshops (PERCOM Workshops), Mannheim, Germany, 29 March–2 April 2010; IEEE: New York, NY, USA, 2010; pp. 772–775. [Google Scholar]
  7. Prophesee. Prophesee Homepage. Available online: ссылка  (accessed on 30 June 2023).
  8. Schrapf, N.; Alsaied, S.; Tilp, M. Tactical interaction of offensive and defensive teams in team handball analysed by artificial neural networks. Math. Comput. Model. Dyn. Syst. 201723, 363–371. [Google Scholar] [CrossRef]
  9. Labs, S. Zed 2 Camera Homepage. Available online: ссылка  (accessed on 30 June 2023).
  10. Vallance, E.; Sutton-Charani, N.; Imoussaten, A.; Montmain, J.; Perrey, S. Combining internal-and external-training-loads to predict non-contact injuries in soccer. Appl. Sci. 202010, 5261. [Google Scholar] [CrossRef]
  11. Host, K.; Ivasic-Kos, M.; Pobar, M. Action recognition in handball scenes. In Intelligent Computing: Proceedings of the 2021 Computing Conference; Springer: Berlin/Heidelberg, Germany, 2022; Volume 1, pp. 645–656. [Google Scholar]
  12. Biermann, H.; Theiner, J.; Bassek, M.; Raabe, D.; Memmert, D.; Ewerth, R. A unified taxonomy and multimodal dataset for events in invasion games. In Proceedings of the 4th International Workshop on Multimedia Content Analysis in Sports, Chengdu, China, 20 October 2021; Association for Computing Machinery: New York, NY, USA, 2021; pp. 1–10. [Google Scholar]
  13. Jocher, G.; Chaurasia, A.; Qiu, J. Ultralytics YOLOv8, version 8.0.0; Ultralytics: Los Angeles, CA, USA, 2023; Available online: ссылка  (accessed on 7 April 2026).
  14. Redmon, J.; Farhadi, A. Yolov3: An incremental improvement. arXiv 2018, arXiv:1804.02767. [Google Scholar] [CrossRef]
  15. TofyLion. GitHub Repository for Annotations Helper Tool. Available online: ссылка  (accessed on 30 June 2023).
  16. Wang, W.; Dai, J.; Chen, Z.; Huang, Z.; Li, Z.; Zhu, X.; Hu, X.; Lu, T.; Lu, L.; Li, H.; et al. Internimage: Exploring large-scale vision foundation models with deformable convolutions. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Vancouver, BC, Canada, 17–24 June 2023; pp. 14408–14419. [Google Scholar]
  17. TofyLion. GitHub Repository for Tool That Extracts Random Frames from Videos. Available online: ссылка  (accessed on 30 June 2023).
  18. Roboflow. Roboflow Home. Available online: https://roboflow.com (accessed on 30 June 2023).
  19. Aharon, S.; Louis-Dupont; Masad, O.; Yurkova, K.; Fridman, L.; Lkdci; Khvedchenya, E.; Rubin, R.; Bagrov, N.; Tymchenko, B.; et al. Super-Gradients, version 3.0.8; Zenodo: Geneva, Switzerland, 2021. [CrossRef]
  20. Kyriakides, G.; Margaritis, K.G. An Introduction to Neural Architecture Search for Convolutional Networks. arXiv 2020, arXiv:2005.11074. [Google Scholar] [CrossRef]
  21. Khan, S.H.; Naseer, M.; Hayat, M.; Zamir, S.W.; Khan, F.S.; Shah, M. Transformers in Vision: A Survey. ACM Comput. Surv. 202254, 200. [Google Scholar] [CrossRef]

Авторы: Mostafa Farahat, Hassan Soubra, Donatien Koulla Moulla, Alain Abran