MS-Temba : Multi-Scale Temporal Mamba for Efficient Temporal Action Detection

要約

1 時間のトリミングされていないビデオではアクションが密に分散されているため、現実世界のシナリオでのアクション検出は特に困難です。
クラス内の重大な時間的変動を処理しながら、短期と長期の両方の時間的関係をモデル化する必要があります。
以前の最先端 (SOTA) Transformer ベースのアーキテクチャは、効果的ではありますが、パラメーター数が多く、GPU メモリの使用量が多く、スループットが限られているため、実際の展開には非実用的であり、非常に長いビデオには適していません。
この研究では、Mamba アーキテクチャをアクション検出に革新的に適応させ、Temporal Mamba (Temba) ブロックと Temporal Mamba Fuser という 2 つの主要コンポーネントで構成されるマルチスケール Temporal Mamba (MS-Temba) を提案します。
Temba ブロックには、短距離時間モデリング用の時間ローカル モジュール (TLM) と長距離依存関係用の拡張時間 SSM (DTS) が含まれています。
拡張を導入することにより、Mamba、TLM、および DTS の新しいコンセプトが複数のスケールでローカルおよびグローバルな特徴をキャプチャします。
Temba Fuser は、Mamba を使用してこれらのスケール固有の機能を集約し、トリミングされていないビデオの包括的なマルチスケール表現を学習します。
MS-Temba は 3 つの公開データセットで検証され、パラメータの 8 分の 1 のみを使用しながら、長いビデオでは SOTA メソッドを上回り、短いビデオでは従来のメソッドと同等のパフォーマンスを発揮します。

要約(オリジナル)

Action detection in real-world scenarios is particularly challenging due to densely distributed actions in hour-long untrimmed videos. It requires modeling both short- and long-term temporal relationships while handling significant intra-class temporal variations. Previous state-of-the-art (SOTA) Transformer-based architectures, though effective, are impractical for real-world deployment due to their high parameter count, GPU memory usage, and limited throughput, making them unsuitable for very long videos. In this work, we innovatively adapt the Mamba architecture for action detection and propose Multi-scale Temporal Mamba (MS-Temba), comprising two key components: Temporal Mamba (Temba) Blocks and the Temporal Mamba Fuser. Temba Blocks include the Temporal Local Module (TLM) for short-range temporal modeling and the Dilated Temporal SSM (DTS) for long-range dependencies. By introducing dilations, a novel concept for Mamba, TLM and DTS capture local and global features at multiple scales. The Temba Fuser aggregates these scale-specific features using Mamba to learn comprehensive multi-scale representations of untrimmed videos. MS-Temba is validated on three public datasets, outperforming SOTA methods on long videos and matching prior methods on short videos while using only one-eighth of the parameters.

arxiv情報

著者 Arkaprava Sinha,Monish Soundar Raj,Pu Wang,Ahmed Helmy,Srijan Das
発行日 2025-01-10 17:52:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク