Adaptive Perception Transformer for Temporal Action Localization

要約

一時的なアクション ローカリゼーションは、トリミングされていない長いビデオの各アクション インスタンスの境界とカテゴリを予測することを目的としています。
アンカーまたはプロポーザルに基づく以前の方法のほとんどは、ビデオ シーケンス全体におけるグローバル ローカル コンテキストの相互作用を無視しています。
その上、彼らの多段階設計は、アクションの境界とカテゴリを直接生成することはできません。
上記の問題に対処するために、このホワイト ペーパーでは、適応認識トランスフォーマー (略して AdaPerFormer) と呼ばれる新しいエンド ツー エンド モデルを提案します。
具体的には、AdaPerFormer は、デュアル ブランチ マルチヘッド セルフアテンション メカニズムを調査します。
1 つのブランチがグローバルな知覚注意を処理し、ビデオ シーケンス全体をモデル化し、グローバルな関連コンテキストを集約できます。
もう一方のブランチはローカル畳み込みシフトに集中し、双方向シフト操作を通じてフレーム内およびフレーム間情報を集約します。
エンド ツー エンドの性質により、追加の手順なしでビデオ アクションの境界とカテゴリが生成されます。
私たちの設計の有効性を明らかにするために、アブレーション研究と一緒に広範な実験が提供されています。
私たちの方法は、THUMOS14 データセットで最先端の精度を達成し (mAP@0.5 で 65.8\%、mAP@0.7 で 42.6\%、mAP@Avg で 62.7\%)、ActivityNet で競争力のあるパフォーマンスを得ています。
36.1\% の平均 mAP を持つ -1.3 データセット。
コードとモデルは https://github.com/SouperO/AdaPerFormer で入手できます。

要約(オリジナル)

Temporal action localization aims to predict the boundary and category of each action instance in untrimmed long videos. Most of previous methods based on anchors or proposals neglect the global-local context interaction in entire video sequences. Besides, their multi-stage designs cannot generate action boundaries and categories straightforwardly. To address the above issues, this paper proposes a novel end-to-end model, called adaptive perception transformer (AdaPerFormer for short). Specifically, AdaPerFormer explores a dual-branch multi-head self-attention mechanism. One branch takes care of the global perception attention, which can model entire video sequences and aggregate global relevant contexts. While the other branch concentrates on the local convolutional shift to aggregate intra-frame and inter-frame information through our bidirectional shift operation. The end-to-end nature produces the boundaries and categories of video actions without extra steps. Extensive experiments together with ablation studies are provided to reveal the effectiveness of our design. Our method achieves a state-of-the-art accuracy on the THUMOS14 dataset (65.8\% in terms of mAP@0.5, 42.6\% mAP@0.7, and 62.7\% mAP@Avg), and obtains competitive performance on the ActivityNet-1.3 dataset with an average mAP of 36.1\%. The code and models are available at https://github.com/SouperO/AdaPerFormer.

arxiv情報

著者 Yizheng Ouyang,Tianjin Zhang,Weibo Gu,Hongfa Wang,Liming Wang,Xiaojie Guo
発行日 2022-08-25 07:42:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク