End-to-End Spatio-Temporal Action Localisation with Video Transformers

要約

タイトル:ビデオトランスフォーマーによるエンドツーエンドの時空間アクションの位置特定
要約:
– 最も優れた時空間アクションローカリゼーションモデルは、外部の人物提案と複雑な外部メモリバンクを使用します。
– 我々は、入力ビデオを直接取り込み、各フレームのバウンディングボックスとアクションクラスのシーケンスであるチューブレットを出力する、完全にエンドツーエンドで、純粋なトランスフォーマーに基づいたモデルを提案します。
– 我々の柔軟なモデルは、個々のフレームにおける疎なバウンディングボックス監視、またはフルチューブレット注釈で訓練することができます。両方の場合に、出力は連続したチューブレットとして予測されます。
– さらに、我々のエンドツーエンドモデルは、提案の形で追加の前処理や非最大化抑制の形での後処理を必要としません。
– 私たちは多くの検討実験を行い、疎なキーフレームと完全なチューブレット注釈の両方で、異なる時空間アクションローカリゼーションベンチマークの最先端の結果を著しく進めました。

要約(オリジナル)

The most performant spatio-temporal action localisation models use external person proposals and complex external memory banks. We propose a fully end-to-end, purely-transformer based model that directly ingests an input video, and outputs tubelets — a sequence of bounding boxes and the action classes at each frame. Our flexible model can be trained with either sparse bounding-box supervision on individual frames, or full tubelet annotations. And in both cases, it predicts coherent tubelets as the output. Moreover, our end-to-end model requires no additional pre-processing in the form of proposals, or post-processing in terms of non-maximal suppression. We perform extensive ablation experiments, and significantly advance the state-of-the-art results on four different spatio-temporal action localisation benchmarks with both sparse keyframes and full tubelet annotations.

arxiv情報

著者 Alexey Gritsenko,Xuehan Xiong,Josip Djolonga,Mostafa Dehghani,Chen Sun,Mario Lučić,Cordelia Schmid,Anurag Arnab
発行日 2023-04-24 15:14:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク