Fine-Grained Action Detection with RGB and Pose Information using Two Stream Convolutional Networks

要約

MediaEval 2022 Sport Taskの参加者として、我々は卓球のストロークの分類と検出のための2ストリームネットワークアプローチを提案する。各ストリームは、アテンション機構を用いた3次元畳み込みニューラルネットワーク(CNN)ブロックの連続である。各ストリームは異なる4次元入力を処理する。本手法では、生のRGBデータとMMPoseツールボックスから計算されたポーズ情報を利用する。ポーズ情報は、黒背景または計算された元のRGBフレームにポーズを適用することにより、画像として扱われる。片方のストリームに生のRGBデータ、もう片方のストリームにポーズ+RGB(PRGB)情報を与え、その特徴にレイトフュージョンを適用することで最高のパフォーマンスが得られます。これらのアプローチは、提供されたTTStroke-21データセットで評価されました。脳卒中の分類は87.3%の精度を達成し、検出はベースラインを上回らなかったが、IoUは0.349、mAPは0.110に達したことを報告することができる。

要約(オリジナル)

As participants of the MediaEval 2022 Sport Task, we propose a two-stream network approach for the classification and detection of table tennis strokes. Each stream is a succession of 3D Convolutional Neural Network (CNN) blocks using attention mechanisms. Each stream processes different 4D inputs. Our method utilizes raw RGB data and pose information computed from MMPose toolbox. The pose information is treated as an image by applying the pose either on a black background or on the original RGB frame it has been computed from. Best performance is obtained by feeding raw RGB data to one stream, Pose + RGB (PRGB) information to the other stream and applying late fusion on the features. The approaches were evaluated on the provided TTStroke-21 data sets. We can report an improvement in stroke classification, reaching 87.3% of accuracy, while the detection does not outperform the baseline but still reaches an IoU of 0.349 and mAP of 0.110.

arxiv情報

著者 Leonard Hacker,Finn Bartels,Pierre-Etienne Martin
発行日 2023-02-06 13:05:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM パーマリンク