VMRNN: Integrating Vision Mamba and LSTM for Efficient and Accurate Spatiotemporal Forecasting

要約

CNN または ViT を時空間予測用の RNN と組み合わせることで、時間的および空間的ダイナミクスの予測において比類のない結果が得られました。
しかし、広範なグローバル情報をモデル化することは依然として困難な課題です。
CNN は狭い受容野によって制限されており、ViT は注意メカニズムの集中的な計算要求に苦労しています。
最近の Mamba ベースのアーキテクチャの出現は、効率性と精度において確立されたビジョン モデルを上回る、その卓越した長期シーケンス モデリング機能に熱狂的に迎えられており、これが私たちに時空間予測に合わせた革新的なアーキテクチャを開発する動機を与えています。
この論文では、Vision Mamba ブロックの長所と LSTM を統合した新しい反復ユニットである VMRNN セルを提案します。
VMRNNセルを中心としたネットワークを構築し、時空間予測タスクに効果的に取り組む。
私たちの広範な評価により、私たちが提案したアプローチは、より小さなモデルサイズを維持しながら、さまざまなタスクで競争力のある結果を確保できることがわかりました。
私たちのコードは https://github.com/yyyujintang/VMRNN-PyTorch で入手できます。

要約(オリジナル)

Combining CNNs or ViTs, with RNNs for spatiotemporal forecasting, has yielded unparalleled results in predicting temporal and spatial dynamics. However, modeling extensive global information remains a formidable challenge; CNNs are limited by their narrow receptive fields, and ViTs struggle with the intensive computational demands of their attention mechanisms. The emergence of recent Mamba-based architectures has been met with enthusiasm for their exceptional long-sequence modeling capabilities, surpassing established vision models in efficiency and accuracy, which motivates us to develop an innovative architecture tailored for spatiotemporal forecasting. In this paper, we propose the VMRNN cell, a new recurrent unit that integrates the strengths of Vision Mamba blocks with LSTM. We construct a network centered on VMRNN cells to tackle spatiotemporal prediction tasks effectively. Our extensive evaluations show that our proposed approach secures competitive results on a variety of tasks while maintaining a smaller model size. Our code is available at https://github.com/yyyujintang/VMRNN-PyTorch.

arxiv情報

著者 Yujin Tang,Peijie Dong,Zhenheng Tang,Xiaowen Chu,Junwei Liang
発行日 2024-03-26 03:56:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク