Actor-identified Spatiotemporal Action Detection — Detecting Who Is Doing What in Videos

要約

ビデオアクション認識(AR)における深層学習の成功は、研究者が関連するタスクを粗いレベルから細かいレベルへ段階的に推進する動機付けとなっている。動画全体のアクションラベルを予測する従来のARと比較して、動画中の各アクションの開始時刻と終了時刻を推定するTemporal Action Detection (TAD) が研究されてきた。また、TADをさらに発展させ、動画中のアクションを空間的・時間的に特定するSAD(Spatiotemporal Action Detection)が研究されています。しかし、SADでは一般的に誰がアクションを行ったかは無視されており、アクターの特定も重要であると考えられる。そこで、我々は、SADと行為者の識別の間のギャップを埋めるために、行為者識別時空間行為検出(ASAD)という新しいタスクを提案する。 ASADでは、インスタンスレベルのアクションの時空間的境界を検出するだけでなく、各アクターに固有のIDを割り当てる。ASADを実現するためには、Multiple Object Tracking (MOT) と Action Classification (AC)の2つが基本要素となる。MOTにより、各アクタの時空間的な境界を求め、一意のアクタIDに割り当てる。また、ACにより、対応する時空間境界における行動分類を推定する。ASADは新しいタスクであるため、既存の手法では対応できない多くの新しい課題がある。i) ASADのために特別に作成されたデータセットがない、ii) ASADのための評価指標が設計されていない、iii) 満足できるASAD結果を得るためには、現在のMOT性能がボトルネックである。これらの問題に対処するため、我々は、i) 新しいASADデータセットのアノテーション、ii) マルチラベル行動とアクター識別を考慮したASAD評価指標の提案、iii) MOTの性能を高めるためのデータ関連付け戦略の改善、に貢献し、より良いASAD結果を導く。コードは https://github.com/fandulu/ASAD で公開されている。

要約(オリジナル)

The success of deep learning on video Action Recognition (AR) has motivated researchers to progressively promote related tasks from the coarse level to the fine-grained level. Compared with conventional AR which only predicts an action label for the entire video, Temporal Action Detection (TAD) has been investigated for estimating the start and end time for each action in videos. Taking TAD a step further, Spatiotemporal Action Detection (SAD) has been studied for localizing the action both spatially and temporally in videos. However, who performs the action, is generally ignored in SAD, while identifying the actor could also be important. To this end, we propose a novel task, Actor-identified Spatiotemporal Action Detection (ASAD), to bridge the gap between SAD and actor identification. In ASAD, we not only detect the spatiotemporal boundary for instance-level action but also assign the unique ID to each actor. To approach ASAD, Multiple Object Tracking (MOT) and Action Classification (AC) are two fundamental elements. By using MOT, the spatiotemporal boundary of each actor is obtained and assigned to a unique actor identity. By using AC, the action class is estimated within the corresponding spatiotemporal boundary. Since ASAD is a new task, it poses many new challenges that cannot be addressed by existing methods: i) no dataset is specifically created for ASAD, ii) no evaluation metrics are designed for ASAD, iii) current MOT performance is the bottleneck to obtain satisfactory ASAD results. To address those problems, we contribute to i) annotate a new ASAD dataset, ii) propose ASAD evaluation metrics by considering multi-label actions and actor identification, iii) improve the data association strategies in MOT to boost the MOT performance, which leads to better ASAD results. The code is available at https://github.com/fandulu/ASAD.

arxiv情報

著者 Fan Yang,Norimichi Ukita,Sakriani Sakti,Satoshi Nakamura
発行日 2022-09-07 12:37:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク