History-Guided Video Diffusion

要約

分類器フリーガイダンス(CFG)は、拡散モデルの条件付き生成を改善するための重要な手法であり、サンプル品質を向上させながらより正確な制御を可能にします。
この手法をビデオ拡散に拡張することは自然です。これにより、歴史と呼ばれるさまざまな数のコンテキストフレームに条件付けられたビデオを生成します。
ただし、さまざまな長さの履歴を導くための2つの重要な課題が見つかります。固定サイズのコンディショニングのみをサポートするアーキテクチャと、CFGス​​タイルの履歴ドロップアウトのパフォーマンスが低いという経験的観察です。
これに対処するために、拡散強制変圧器(DFOT)、ビデオ拡散アーキテクチャ、および理論的に根拠のあるトレーニング目標を提案し、柔軟な数の履歴フレームのコンディショニングを共同で可能にします。
次に、DFOTによって独自に可能になったガイダンス方法のファミリーであるHistory Guidanceを紹介します。
その最も単純なフォームであるバニラの歴史ガイダンスが、すでにビデオ生成の品質と時間的一貫性を大幅に改善していることを示しています。
より高度な方法、時間と頻度にわたる履歴ガイダンスは、モーションダイナミクスをさらに強化し、分散式の履歴に合わせた一般化を可能にし、非常に長いビデオを安定に展開できます。
ウェブサイト:https://boyuan.space/history-guidance

要約(オリジナル)

Classifier-free guidance (CFG) is a key technique for improving conditional generation in diffusion models, enabling more accurate control while enhancing sample quality. It is natural to extend this technique to video diffusion, which generates video conditioned on a variable number of context frames, collectively referred to as history. However, we find two key challenges to guiding with variable-length history: architectures that only support fixed-size conditioning, and the empirical observation that CFG-style history dropout performs poorly. To address this, we propose the Diffusion Forcing Transformer (DFoT), a video diffusion architecture and theoretically grounded training objective that jointly enable conditioning on a flexible number of history frames. We then introduce History Guidance, a family of guidance methods uniquely enabled by DFoT. We show that its simplest form, vanilla history guidance, already significantly improves video generation quality and temporal consistency. A more advanced method, history guidance across time and frequency further enhances motion dynamics, enables compositional generalization to out-of-distribution history, and can stably roll out extremely long videos. Website: https://boyuan.space/history-guidance

arxiv情報

著者 Kiwhan Song,Boyuan Chen,Max Simchowitz,Yilun Du,Russ Tedrake,Vincent Sitzmann
発行日 2025-02-10 18:44:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク