VideoMamba: State Space Model for Efficient Video Understanding

要約

ビデオ理解におけるローカル冗長性とグローバル依存性という 2 つの課題に対処するこの取り組みでは、Mamba をビデオ ドメインに革新的に適応させます。
提案された VideoMamba は、既存の 3D 畳み込みニューラル ネットワークとビデオ トランスフォーマーの制限を克服します。
線形複雑度演算子により、高解像度の長時間ビデオを理解するために不可欠な、効率的な長期モデリングが可能になります。
広範な評価により、VideoMamba の 4 つの核となる能力が明らかになりました。(1) 新しい自己蒸留技術により、大規模なデータセットの事前トレーニングを必要としないビジュアル領域のスケーラビリティ。
(2) 細かい動作の違いであっても、短期的な動作を認識する感度。
(3) 長期的なビデオ理解における優位性。従来の機能ベースのモデルに比べて大幅な進歩を示しています。
(4) 他のモダリティとの互換性。マルチモーダルコンテキストでの堅牢性を実証します。
これらの明確な利点により、VideoMamba はビデオ理解の新しいベンチマークを設定し、包括的なビデオ理解のためのスケーラブルで効率的なソリューションを提供します。
すべてのコードとモデルは https://github.com/OpenGVLab/VideoMamba で入手できます。

要約(オリジナル)

Addressing the dual challenges of local redundancy and global dependencies in video understanding, this work innovatively adapts the Mamba to the video domain. The proposed VideoMamba overcomes the limitations of existing 3D convolution neural networks and video transformers. Its linear-complexity operator enables efficient long-term modeling, which is crucial for high-resolution long video understanding. Extensive evaluations reveal VideoMamba’s four core abilities: (1) Scalability in the visual domain without extensive dataset pretraining, thanks to a novel self-distillation technique; (2) Sensitivity for recognizing short-term actions even with fine-grained motion differences; (3) Superiority in long-term video understanding, showcasing significant advancements over traditional feature-based models; and (4) Compatibility with other modalities, demonstrating robustness in multi-modal contexts. Through these distinct advantages, VideoMamba sets a new benchmark for video understanding, offering a scalable and efficient solution for comprehensive video understanding. All the code and models are available at https://github.com/OpenGVLab/VideoMamba.

arxiv情報

著者 Kunchang Li,Xinhao Li,Yi Wang,Yinan He,Yali Wang,Limin Wang,Yu Qiao
発行日 2024-03-12 15:22:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク