End-to-end Temporal Action Detection with Transformer

要約

時間的行動検出(TAD)は、トリミングされていないビデオ中の全ての行動インスタンスの意味的ラベルと時間的間隔を決定することを目的としている。これはビデオ理解における基本的かつ挑戦的なタスクである。これまでの手法は、複雑なパイプラインでこのタスクに取り組んできた。それらはしばしば複数のネットワークを学習する必要があり、非最大限の抑制やアンカー生成など、手で設計された操作を含むため、柔軟性が制限され、エンドツーエンドの学習ができない。本論文では、TadTRと呼ばれるTADのためのエンドツーエンドのTransformerベースの方法を提案する。アクションクエリーと呼ばれる学習可能な埋め込みの小さなセットが与えられると、TadTRは各クエリーに対して映像から時間的コンテキスト情報を適応的に抽出し、そのコンテキストを用いてアクションインスタンスを直接予測する。TransformerをTADに適応させるために、我々はその局所性認識を強化するための3つの改良を提案する。コアとなるのは時間的変形可能な注意モジュールであり、ビデオ中の重要なスニペットの疎な集合に選択的に注意を向ける。セグメント洗練機構とアクションネス回帰ヘッドは、それぞれ予測されたインスタンスの境界と信頼度を洗練するために設計されている。このようなシンプルなパイプラインにより、TadTRは従来の検出器よりも低い計算コストで、優れた性能を維持したまま検出を行うことができる。自己完結型の検出器として、THUMOS14 (56.7% mAP) とHACS Segments (32.09% mAP) において最先端の性能を達成した。また、アクション分類器を追加することで、ActivityNet-1.3において36.75%のmAPを得ることができる。コードは https://github.com/xlliu7/TadTR で公開されている。

要約(オリジナル)

Temporal action detection (TAD) aims to determine the semantic label and the temporal interval of every action instance in an untrimmed video. It is a fundamental and challenging task in video understanding. Previous methods tackle this task with complicated pipelines. They often need to train multiple networks and involve hand-designed operations, such as non-maximal suppression and anchor generation, which limit the flexibility and prevent end-to-end learning. In this paper, we propose an end-to-end Transformer-based method for TAD, termed TadTR. Given a small set of learnable embeddings called action queries, TadTR adaptively extracts temporal context information from the video for each query and directly predicts action instances with the context. To adapt Transformer to TAD, we propose three improvements to enhance its locality awareness. The core is a temporal deformable attention module that selectively attends to a sparse set of key snippets in a video. A segment refinement mechanism and an actionness regression head are designed to refine the boundaries and confidence of the predicted instances, respectively. With such a simple pipeline, TadTR requires lower computation cost than previous detectors, while preserving remarkable performance. As a self-contained detector, it achieves state-of-the-art performance on THUMOS14 (56.7% mAP) and HACS Segments (32.09% mAP). Combined with an extra action classifier, it obtains 36.75% mAP on ActivityNet-1.3. Code is available at https://github.com/xlliu7/TadTR.

arxiv情報

著者 Xiaolong Liu,Qimeng Wang,Yao Hu,Xu Tang,Shiwei Zhang,Song Bai,Xiang Bai
発行日 2022-08-11 14:04:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク