要約
人間には相補的な学習システムが備わっており、一般的な世界ダイナミクスのゆっくりした学習と、新しい経験からのエピソード記憶の高速な保存を橋渡ししている。しかし、これまでの映像生成モデルは、膨大なデータに対する事前学習によって、主に低速学習に焦点を当て、エピソード記憶の保存に重要な高速学習段階を見落としている。この見落としは、より長い動画を生成する際に、時間的に離れたフレーム間で矛盾が生じることにつながり、これらのフレームはモデルのコンテキストウィンドウを超えるためである。この目的のために、我々は行動駆動型長尺動画生成のための新しい2速度学習システムであるSlowFast-VGenを紹介する。我々のアプローチは、時間的LoRAモジュールに基づく推論時間の高速学習戦略とともに、世界ダイナミクスの低速学習のためのマスクされた条件付きビデオ拡散モデルを組み込んでいる。具体的には、高速学習プロセスは、局所的な入力と出力に基づいて時間的LoRAパラメータを更新し、それにより効率的にエピソード記憶をパラメータに格納する。さらに、内側の高速学習ループを外側の低速学習ループにシームレスに統合する低速高速学習ループアルゴリズムを提案し、文脈を考慮したスキル学習のために、過去の複数エピソード経験の想起を可能にする。近似世界モデルのゆっくりした学習を促進するために、我々は、幅広いシナリオをカバーする、言語行動注釈付きの200kビデオの大規模データセットを収集する。広範な実験により、SlowFast-VGenはアクション駆動型ビデオ生成の様々な指標においてベースラインを上回り、FVDスコア782に対して514を達成し、平均0.89に対して0.37シーンカットと、より長いビデオにおいても一貫性を維持することが示された。スローファスト学習ループアルゴリズムは、ロングホライズン計画タスクのパフォーマンスも大幅に向上させる。プロジェクトウェブサイト:https://slowfast-vgen.github.io
要約(オリジナル)
Human beings are endowed with a complementary learning system, which bridges the slow learning of general world dynamics with fast storage of episodic memory from a new experience. Previous video generation models, however, primarily focus on slow learning by pre-training on vast amounts of data, overlooking the fast learning phase crucial for episodic memory storage. This oversight leads to inconsistencies across temporally distant frames when generating longer videos, as these frames fall beyond the model’s context window. To this end, we introduce SlowFast-VGen, a novel dual-speed learning system for action-driven long video generation. Our approach incorporates a masked conditional video diffusion model for the slow learning of world dynamics, alongside an inference-time fast learning strategy based on a temporal LoRA module. Specifically, the fast learning process updates its temporal LoRA parameters based on local inputs and outputs, thereby efficiently storing episodic memory in its parameters. We further propose a slow-fast learning loop algorithm that seamlessly integrates the inner fast learning loop into the outer slow learning loop, enabling the recall of prior multi-episode experiences for context-aware skill learning. To facilitate the slow learning of an approximate world model, we collect a large-scale dataset of 200k videos with language action annotations, covering a wide range of scenarios. Extensive experiments show that SlowFast-VGen outperforms baselines across various metrics for action-driven video generation, achieving an FVD score of 514 compared to 782, and maintaining consistency in longer videos, with an average of 0.37 scene cuts versus 0.89. The slow-fast learning loop algorithm significantly enhances performances on long-horizon planning tasks as well. Project Website: https://slowfast-vgen.github.io
arxiv情報
著者 | Yining Hong,Beide Liu,Maxine Wu,Yuanhao Zhai,Kai-Wei Chang,Linjie Li,Kevin Lin,Chung-Ching Lin,Jianfeng Wang,Zhengyuan Yang,Yingnian Wu,Lijuan Wang |
発行日 | 2024-10-31 18:03:51+00:00 |
arxivサイト | arxiv_id(pdf) |