要約
人間には、一般的な世界の動きの遅い学習と、新しい経験からのエピソード記憶の高速な保存を橋渡しする補完的な学習システムが備わっています。
しかし、以前のビデオ生成モデルは主に、膨大な量のデータでの事前トレーニングによる低速学習に重点を置き、エピソード記憶の保存に不可欠な高速学習フェーズを見落としていました。
この見落としにより、長いビデオを生成する際、時間的に離れたフレーム間で不整合が発生します。これらのフレームはモデルのコンテキスト ウィンドウを超えてしまうためです。
この目的を達成するために、アクション主導の長いビデオ生成のための新しいデュアルスピード学習システムである SlowFast-VGen を紹介します。
私たちのアプローチには、時間的 LoRA モジュールに基づく推論時間の高速学習戦略と並行して、ワールドダイナミクスの低速学習のためのマスクされた条件付きビデオ拡散モデルが組み込まれています。
具体的には、高速学習プロセスは、ローカルの入出力に基づいて一時的な LoRA パラメーターを更新し、それによってエピソード記憶をそのパラメーターに効率的に保存します。
さらに、内側の高速学習ループを外側の低速学習ループにシームレスに統合する低速-高速学習ループ アルゴリズムを提案します。これにより、コンテキスト認識型スキル学習のための以前のマルチエピソード体験の想起が可能になります。
近似世界モデルのゆっくりとした学習を促進するために、幅広いシナリオをカバーする言語アクションの注釈を含む 200,000 個のビデオの大規模なデータセットを収集します。
広範な実験により、SlowFast-VGen はアクション駆動型ビデオ生成のさまざまな指標でベースラインを上回り、FVD スコアが 782 に対して 514 を達成し、シーン カットの平均が 0.37 対 0.89 で長いビデオの一貫性を維持していることが示されています。
低速-高速学習ループ アルゴリズムにより、長期的な計画タスクのパフォーマンスも大幅に向上します。
プロジェクト Web サイト: https://slowfast-vgen.github.io
要約(オリジナル)
Human beings are endowed with a complementary learning system, which bridges the slow learning of general world dynamics with fast storage of episodic memory from a new experience. Previous video generation models, however, primarily focus on slow learning by pre-training on vast amounts of data, overlooking the fast learning phase crucial for episodic memory storage. This oversight leads to inconsistencies across temporally distant frames when generating longer videos, as these frames fall beyond the model’s context window. To this end, we introduce SlowFast-VGen, a novel dual-speed learning system for action-driven long video generation. Our approach incorporates a masked conditional video diffusion model for the slow learning of world dynamics, alongside an inference-time fast learning strategy based on a temporal LoRA module. Specifically, the fast learning process updates its temporal LoRA parameters based on local inputs and outputs, thereby efficiently storing episodic memory in its parameters. We further propose a slow-fast learning loop algorithm that seamlessly integrates the inner fast learning loop into the outer slow learning loop, enabling the recall of prior multi-episode experiences for context-aware skill learning. To facilitate the slow learning of an approximate world model, we collect a large-scale dataset of 200k videos with language action annotations, covering a wide range of scenarios. Extensive experiments show that SlowFast-VGen outperforms baselines across various metrics for action-driven video generation, achieving an FVD score of 514 compared to 782, and maintaining consistency in longer videos, with an average of 0.37 scene cuts versus 0.89. The slow-fast learning loop algorithm significantly enhances performances on long-horizon planning tasks as well. Project Website: https://slowfast-vgen.github.io
arxiv情報
著者 | Yining Hong,Beide Liu,Maxine Wu,Yuanhao Zhai,Kai-Wei Chang,Lingjie Li,Kevin Lin,Chung-Ching Lin,Jianfeng Wang,Zhengyuan Yang,Yingnian Wu,Lijuan Wang |
発行日 | 2024-10-30 17:55:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google