MALT: Multi-scale Action Learning Transformer for Online Action Detection

要約

オンライン アクション検出 (OAD) は、将来のフレームにアクセスすることなく、ストリーミング ビデオから進行中のアクションをリアルタイムで識別することを目的としています。
これらのアクションは、粗いものから細かいものまで、さまざまな粒度のスケールで現れるため、アクション フレームのセット全体を単一の潜在エンコーディングに投影すると、ローカル情報が欠如し、複数のスケールにわたるアクションの特徴を取得する必要が生じる可能性があります。
この論文では、マルチスケール アクション学習トランスフォーマー (MALT) を提案します。これには、パラメーターが少なく、より効率的にトレーニングできる新しいリカレント デコーダー (特徴融合に使用) が含まれています。
マルチスケールのアクション特徴を捕捉するために、複数の符号化ブランチを備えた階層エンコーダがさらに提案されています。
前のブランチからの出力は、クロスアテンション計算の一部として後続のブランチに段階的に入力されます。
このようにして、分岐が深くなるにつれて、出力特徴は粗いものから細かいものに移行します。
また、追加のネットワークを必要とせずに、無関係なフレームをより効率的にフィルタリングする、スパース アテンションを採用した明示的なフレーム スコアリング メカニズムも導入します。
提案された手法は、2 つのベンチマーク データセット (THUMOS’14 および TVSeries) で最先端のパフォーマンスを達成し、比較に使用されたすべての既存モデルを上回りました。THUMOS’14 の mAP は 0.2%、TVseries の mAP は 0.1% でした。

要約(オリジナル)

Online action detection (OAD) aims to identify ongoing actions from streaming video in real-time, without access to future frames. Since these actions manifest at varying scales of granularity, ranging from coarse to fine, projecting an entire set of action frames to a single latent encoding may result in a lack of local information, necessitating the acquisition of action features across multiple scales. In this paper, we propose a multi-scale action learning transformer (MALT), which includes a novel recurrent decoder (used for feature fusion) that includes fewer parameters and can be trained more efficiently. A hierarchical encoder with multiple encoding branches is further proposed to capture multi-scale action features. The output from the preceding branch is then incrementally input to the subsequent branch as part of a cross-attention calculation. In this way, output features transition from coarse to fine as the branches deepen. We also introduce an explicit frame scoring mechanism employing sparse attention, which filters irrelevant frames more efficiently, without requiring an additional network. The proposed method achieved state-of-the-art performance on two benchmark datasets (THUMOS’14 and TVSeries), outperforming all existing models used for comparison, with an mAP of 0.2% for THUMOS’14 and an mcAP of 0.1% for TVseries.

arxiv情報

著者 Zhipeng Yang,Ruoyu Wang,Yang Tan,Liping Xie
発行日 2024-05-31 15:03:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク