要約
ビデオ生成モデルは、将来の状態をシミュレートする際に大きな進歩を遂げ、具体化されたシナリオの世界シミュレータとしての可能性を示しています。
ただし、既存のモデルには堅牢な理解が欠けていることが多く、マルチステップの予測を実行したり、分散除外(OOD)シナリオを処理する能力を制限しています。
この課題に対処するために、ビデオ予測を強化するために設計された中間推論戦略のセットであるGeneration of Generation(ROG)を反映します。
事前に訓練されたビジョン言語およびビデオ生成モデルの補完的な強さを活用して、具体化されたシナリオの世界モデルとして機能することができます。
ROGをサポートするために、ドメイン内とOODデータセットの両方を利用して、多様なタスクとシナリオにわたって具体化された世界モデルを評価する包括的なベンチマークである、具体化されたビデオ予想ベンチマーク(EVA-Bench)を紹介します。
この基盤に基づいて、私たちは世界モデル、具体化されたビデオ予測者(EVA)を考案します。これは、高忠実度のビデオフレームを生成し、より長いビデオシーケンスの適応的一般化を可能にする自己回帰戦略を生成するための多段階トレーニングパラダイムに従います。
広範な実験は、ビデオ生成やロボット工学などのさまざまな下流タスクにおけるEVAの有効性を示しているため、実際のビデオ予測アプリケーションで大規模な事前訓練を受けたモデルへの道を開いています。
ビデオデモは、\ HyperLink {https://sites.google.com/view/icml-eva} {https://sites.google.com/view/icml-eva}で入手できます。
要約(オリジナル)
Video generation models have made significant progress in simulating future states, showcasing their potential as world simulators in embodied scenarios. However, existing models often lack robust understanding, limiting their ability to perform multi-step predictions or handle Out-of-Distribution (OOD) scenarios. To address this challenge, we propose the Reflection of Generation (RoG), a set of intermediate reasoning strategies designed to enhance video prediction. It leverages the complementary strengths of pre-trained vision-language and video generation models, enabling them to function as a world model in embodied scenarios. To support RoG, we introduce Embodied Video Anticipation Benchmark(EVA-Bench), a comprehensive benchmark that evaluates embodied world models across diverse tasks and scenarios, utilizing both in-domain and OOD datasets. Building on this foundation, we devise a world model, Embodied Video Anticipator (EVA), that follows a multistage training paradigm to generate high-fidelity video frames and apply an autoregressive strategy to enable adaptive generalization for longer video sequences. Extensive experiments demonstrate the efficacy of EVA in various downstream tasks like video generation and robotics, thereby paving the way for large-scale pre-trained models in real-world video prediction applications. The video demos are available at \hyperlink{https://sites.google.com/view/icml-eva}{https://sites.google.com/view/icml-eva}.
arxiv情報
著者 | Xiaowei Chi,Chun-Kai Fan,Hengyuan Zhang,Xingqun Qi,Rongyu Zhang,Anthony Chen,Chi-min Chan,Wei Xue,Qifeng Liu,Shanghang Zhang,Yike Guo |
発行日 | 2025-06-10 08:08:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google