Baseline Method for the Sport Task of MediaEval 2022 with 3D CNNs using Attention Mechanisms


本論文では,MediaEval 2022ベンチマークのスポーツビデオタスクに対して提案したベースライン手法を示す.本タスクでは,トリミングされた動画像からのストローク分類と,トリミングされていない動画像からのストローク検出の2つのサブタスクが提案されている.本ベースラインはこの2つのサブタスクに対応する.我々は2つのサブタスクを解決するために、2種類の3D-CNNアーキテクチャを提案する。どちらの3D-CNNも時空間畳み込みとアテンション機構を利用している。アーキテクチャと学習過程は、対応するサブタスクを解決するために調整される。このベースライン手法は、参加者の調査に役立ち、ビデオ処理、学習方法、評価、提出ルーチンなどのタスクのいくつかの側面を最終的に軽減するために、オンラインで公開されている。ベースライン法は、分類サブタスクにおいて、我々のv2モデルで86.4%の精度を達成した。検出サブタスクでは、ベースライン法は我々のv1モデルで0.131のmAPと0.515のIoUに到達する。


This paper presents the baseline method proposed for the Sports Video task part of the MediaEval 2022 benchmark. This task proposes two subtasks: stroke classification from trimmed videos, and stroke detection from untrimmed videos. This baseline addresses both subtasks. We propose two types of 3D-CNN architectures to solve the two subtasks. Both 3D-CNNs use Spatio-temporal convolutions and attention mechanisms. The architectures and the training process are tailored to solve the addressed subtask. This baseline method is shared publicly online to help the participants in their investigation and alleviate eventually some aspects of the task such as video processing, training method, evaluation and submission routine. The baseline method reaches 86.4% of accuracy with our v2 model for the classification subtask. For the detection subtask, the baseline reaches a mAP of 0.131 and IoU of 0.515 with our v1 model.


著者 Pierre-Etienne Martin
発行日 2023-02-06 12:58:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM パーマリンク