要約
ビデオを理解することはコンピューター ビジョン研究の基本的な方向性の 1 つであり、RNN、3D CNN、Transformers などのさまざまなアーキテクチャの探索に広範な取り組みが行われています。
新しく提案された状態空間モデルのアーキテクチャ、たとえば Mamba は、長いシーケンス モデリングでの成功をビデオ モデリングに拡張する有望な特性を示しています。
Mamba がビデオ理解領域においてトランスフォーマーの有力な代替となり得るかどうかを評価するために、この研究では包括的な一連の研究を実施し、Mamba が優位性を発揮できるさまざまなタスクを調査しながら、ビデオのモデリングにおいて Mamba が果たせるさまざまな役割を調査します。
ビデオをモデリングするための Mamba を 4 つの役割に分類し、14 のモデル/モジュールで構成される Video Mamba Suite を導出し、12 のビデオ理解タスクでそれらを評価します。
私たちの広範な実験により、ビデオのみのタスクとビデオ言語のタスクの両方において Mamba の強力な可能性が明らかになり、効率性とパフォーマンスのトレードオフが期待できることが示されました。
この研究が、ビデオ理解に関する将来の研究に貴重なデータポイントと洞察を提供できることを願っています。
コードは公開されています: https://github.com/OpenGVLab/video-mamba-suite。
要約(オリジナル)
Understanding videos is one of the fundamental directions in computer vision research, with extensive efforts dedicated to exploring various architectures such as RNN, 3D CNN, and Transformers. The newly proposed architecture of state space model, e.g., Mamba, shows promising traits to extend its success in long sequence modeling to video modeling. To assess whether Mamba can be a viable alternative to Transformers in the video understanding domain, in this work, we conduct a comprehensive set of studies, probing different roles Mamba can play in modeling videos, while investigating diverse tasks where Mamba could exhibit superiority. We categorize Mamba into four roles for modeling videos, deriving a Video Mamba Suite composed of 14 models/modules, and evaluating them on 12 video understanding tasks. Our extensive experiments reveal the strong potential of Mamba on both video-only and video-language tasks while showing promising efficiency-performance trade-offs. We hope this work could provide valuable data points and insights for future research on video understanding. Code is public: https://github.com/OpenGVLab/video-mamba-suite.
arxiv情報
著者 | Guo Chen,Yifei Huang,Jilan Xu,Baoqi Pei,Zhe Chen,Zhiqi Li,Jiahao Wang,Kunchang Li,Tong Lu,Limin Wang |
発行日 | 2024-03-14 17:57:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google