要約
ビデオ拡散モデルは最近、アクションを条件とする自己回帰フレーム予測を通じて、世界モデリングの有望を示しています。
しかし、彼らは、注意層の拡張シーケンスを処理することに関連する高い計算コストのために、長期記憶を維持するのに苦労しています。
この制限を克服するために、計算効率を損なうことなく時間的メモリを拡張するために、状態空間モデル(SSM)を活用する新しいアーキテクチャを提案します。
非因果性視力課題のSSMを後付けする以前のアプローチとは異なり、我々の方法は、因果シーケンスモデリングにおけるSSMの固有の利点を完全に活用します。
私たちの設計の中心は、ブロックごとのSSMスキャンスキームであり、拡張された時間メモリの空間的一貫性を戦略的に交換し、連続フレーム間の一貫性を確保するために密集した局所的な注意と組み合わされます。
拡張された視野を介した空間検索および推論タスクを通じて、モデルの長期的なメモリ機能を評価します。
メモリ迷路とMinecraftデータセットの実験は、インタラクティブなアプリケーションに適した実用的な推論速度を維持しながら、私たちのアプローチが長距離メモリを維持する際にベースラインを上回ることを示しています。
要約(オリジナル)
Video diffusion models have recently shown promise for world modeling through autoregressive frame prediction conditioned on actions. However, they struggle to maintain long-term memory due to the high computational cost associated with processing extended sequences in attention layers. To overcome this limitation, we propose a novel architecture leveraging state-space models (SSMs) to extend temporal memory without compromising computational efficiency. Unlike previous approaches that retrofit SSMs for non-causal vision tasks, our method fully exploits the inherent advantages of SSMs in causal sequence modeling. Central to our design is a block-wise SSM scanning scheme, which strategically trades off spatial consistency for extended temporal memory, combined with dense local attention to ensure coherence between consecutive frames. We evaluate the long-term memory capabilities of our model through spatial retrieval and reasoning tasks over extended horizons. Experiments on Memory Maze and Minecraft datasets demonstrate that our approach surpasses baselines in preserving long-range memory, while maintaining practical inference speeds suitable for interactive applications.
arxiv情報
著者 | Ryan Po,Yotam Nitzan,Richard Zhang,Berlin Chen,Tri Dao,Eli Shechtman,Gordon Wetzstein,Xun Huang |
発行日 | 2025-05-26 16:12:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google