FreeInit: Bridging Initialization Gap in Video Diffusion Models

要約

拡散ベースのビデオ生成は急速な進歩を遂げていますが、既存のモデルの推論結果は依然として不十分な時間的一貫性と不自然なダイナミクスを示しています。
この論文では、ビデオ拡散モデルのノイズ初期化を深く掘り下げ、不十分な推論品質に起因する暗黙的なトレーニングと推論のギャップを発見します。
私たちの主な発見は、1) 推論時の初期潜在の時空間周波数分布はトレーニング時とは本質的に異なる、2) ノイズ除去プロセスは初期ノイズの低周波成分に大きく影響される、ということです。
これらの観察に基づいて、我々は、拡散モデルによって生成されたビデオの時間的一貫性を大幅に向上させる、簡潔かつ効果的な推論サンプリング戦略 FreeInit を提案します。
FreeInit は、推論中に初期潜在の時空間的低周波成分を反復的に調整することで、トレーニングと推論の間の初期化ギャップを補うことができ、その結果、対象の外観と生成結果の時間的一貫性が効果的に改善されます。
広範な実験により、FreeInit が追加のトレーニングなしでさまざまなテキストからビデオへの生成モデルの生成結果を一貫して向上させることが実証されました。

要約(オリジナル)

Though diffusion-based video generation has witnessed rapid progress, the inference results of existing models still exhibit unsatisfactory temporal consistency and unnatural dynamics. In this paper, we delve deep into the noise initialization of video diffusion models, and discover an implicit training-inference gap that attributes to the unsatisfactory inference quality. Our key findings are: 1) the spatial-temporal frequency distribution of the initial latent at inference is intrinsically different from that for training, and 2) the denoising process is significantly influenced by the low-frequency components of the initial noise. Motivated by these observations, we propose a concise yet effective inference sampling strategy, FreeInit, which significantly improves temporal consistency of videos generated by diffusion models. Through iteratively refining the spatial-temporal low-frequency components of the initial latent during inference, FreeInit is able to compensate the initialization gap between training and inference, thus effectively improving the subject appearance and temporal consistency of generation results. Extensive experiments demonstrate that FreeInit consistently enhances the generation results of various text-to-video generation models without additional training.

arxiv情報

著者 Tianxing Wu,Chenyang Si,Yuming Jiang,Ziqi Huang,Ziwei Liu
発行日 2023-12-12 18:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク