要約
ビデオを理解するには、豊かな時空間表現を抽出する必要があります。これは、トランスフォーマー モデルが自己注意を通じて実現します。
残念ながら、自分自身に注意を向けると計算上の負担が生じます。
NLP では、Mamba がトランスフォーマーの効率的な代替手段として浮上しています。
ただし、Mamba の成功は、ビデオ分析などのコンピュータ ビジョン タスクにも簡単に及ぶわけではありません。
この論文では、自注意とマンバの違いを理論的に分析します。
私たちは、Mamba のトークン処理における 2 つの制限、つまり歴史的衰退と要素の矛盾を特定します。
我々は、マスクされた逆方向計算と要素残差接続を VideoMamba バックボーンに追加することで、特定された制限を解決する VideoMambaPro (VMP) を提案します。
VideoMambaPro は、トランスフォーマー モデルと比較して最先端のビデオ アクション認識パフォーマンスを示し、VideoMamba を明らかに上回っています。Kinetics-400 と Something-Something V2 でそれぞれ 7.9% と 8.1% のトップ 1 を獲得しました。
当社の VideoMambaPro-M モデルは、Kinetics-400 で 91.9% のトップ 1 を達成し、InternVideo2-6B よりわずか 0.2% 低いですが、パラメータは 1.2% のみです。
高いパフォーマンスと効率の組み合わせにより、VideoMambaPro はトランス モデルの興味深い代替品となります。
要約(オリジナル)
Video understanding requires the extraction of rich spatio-temporal representations, which transformer models achieve through self-attention. Unfortunately, self-attention poses a computational burden. In NLP, Mamba has surfaced as an efficient alternative for transformers. However, Mamba’s successes do not trivially extend to computer vision tasks, including those in video analysis. In this paper, we theoretically analyze the differences between self-attention and Mamba. We identify two limitations in Mamba’s token processing: historical decay and element contradiction. We propose VideoMambaPro (VMP) that solves the identified limitations by adding masked backward computation and elemental residual connections to a VideoMamba backbone. VideoMambaPro shows state-of-the-art video action recognition performance compared to transformer models, and surpasses VideoMamba by clear margins: 7.9% and 8.1% top-1 on Kinetics-400 and Something-Something V2, respectively. Our VideoMambaPro-M model achieves 91.9% top-1 on Kinetics-400, only 0.2% below InternVideo2-6B but with only 1.2% of its parameters. The combination of high performance and efficiency makes VideoMambaPro an interesting alternative for transformer models.
arxiv情報
| 著者 | Hui Lu,Albert Ali Salah,Ronald Poppe | 
| 発行日 | 2024-08-29 13:23:45+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
