要約
新しい世界モデルは、カメラの動きやテキストプロンプトなどのアクションに応じて、ビデオフレームを自動的に生成します。
時間のコンテキストの窓のサイズが限られているため、これらのモデルは、再訪中にシーンの一貫性を維持するのに苦労し、以前に生成された環境の忘却につながります。
人間の記憶のメカニズムに触発されて、幾何学的な長期空間記憶を通してビデオ世界モデルの長期的な一貫性を高めるための新しいフレームワークを紹介します。
私たちのフレームワークには、長期的な空間メモリから情報を保存および取得するメカニズムが含まれており、カスタムデータセットをキュレートして、明示的に保存された3Dメモリメカニズムで世界モデルをトレーニングおよび評価します。
私たちの評価は、関連するベースラインと比較して品質、一貫性、およびコンテキストの長さが改善され、長期的な一貫した世界生成への道を開いていることを示しています。
要約(オリジナル)
Emerging world models autoregressively generate video frames in response to actions, such as camera movements and text prompts, among other control signals. Due to limited temporal context window sizes, these models often struggle to maintain scene consistency during revisits, leading to severe forgetting of previously generated environments. Inspired by the mechanisms of human memory, we introduce a novel framework to enhancing long-term consistency of video world models through a geometry-grounded long-term spatial memory. Our framework includes mechanisms to store and retrieve information from the long-term spatial memory and we curate custom datasets to train and evaluate world models with explicitly stored 3D memory mechanisms. Our evaluations show improved quality, consistency, and context length compared to relevant baselines, paving the way towards long-term consistent world generation.
arxiv情報
| 著者 | Tong Wu,Shuai Yang,Ryan Po,Yinghao Xu,Ziwei Liu,Dahua Lin,Gordon Wetzstein |
| 発行日 | 2025-06-05 17:42:34+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google