要約
この作業は、オブジェクト検出で大きな成功を収めているDETRと同様に、アクションクエリを備えたエンコーダーデコーダーフレームワークを使用して時間的アクション検出(TAD)を進めることを目的としています。
ただし、フレームワークをTADに直接適用すると、いくつかの問題が発生します。デコーダーでのクエリ間関係の調査が不十分である、トレーニングサンプルの数が限られているために分類トレーニングが不十分である、推論時の分類スコアが信頼できないなどです。
この目的のために、我々は最初にデコーダーのリレーショナル注意メカニズムを提案します。これは、クエリ間の注意をそれらの関係に基づいてガイドします。
さらに、アクション分類のトレーニングを容易にし、安定させるために2つの損失を提案します。
最後に、高品質のクエリを区別するために、推論時に各アクションクエリのローカリゼーション品質を予測することを提案します。
ReActという名前の提案された方法は、以前の方法よりもはるかに低い計算コストで、THUMOS14で最先端のパフォーマンスを実現します。
さらに、提案された各コンポーネントの有効性を検証するために、広範なアブレーション研究が実施されます。
コードはhttps://github.com/sssste/Reactで入手できます。
要約(オリジナル)
This work aims at advancing temporal action detection (TAD) using an encoder-decoder framework with action queries, similar to DETR, which has shown great success in object detection. However, the framework suffers from several problems if directly applied to TAD: the insufficient exploration of inter-query relation in the decoder, the inadequate classification training due to a limited number of training samples, and the unreliable classification scores at inference. To this end, we first propose a relational attention mechanism in the decoder, which guides the attention among queries based on their relations. Moreover, we propose two losses to facilitate and stabilize the training of action classification. Lastly, we propose to predict the localization quality of each action query at inference in order to distinguish high-quality queries. The proposed method, named ReAct, achieves the state-of-the-art performance on THUMOS14, with much lower computational costs than previous methods. Besides, extensive ablation studies are conducted to verify the effectiveness of each proposed component. The code is available at https://github.com/sssste/React.
arxiv情報
著者 | Dingfeng Shi,Yujie Zhong,Qiong Cao,Jing Zhang,Lin Ma,Jia Li,Dacheng Tao |
発行日 | 2022-07-14 17:46:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google