FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention

要約

ビデオ普及モデルは、さまざまなビデオ生成アプリケーションで大幅な進歩を遂げました。
ただし、長いビデオ生成タスクのトレーニング モデルには大量の計算リソースとデータ リソースが必要であり、長いビデオ拡散モデルの開発に課題が生じています。
この論文では、既存の短いビデオ拡散モデル (例: 16 フレームのビデオで事前トレーニング済み) を拡張して、一貫した長いビデオ (例: 128 フレーム) を生成するための、単純でトレーニング不要のアプローチを調査します。
私たちの予備的な観察では、短いビデオの拡散モデルを直接適用して長いビデオを生成すると、ビデオ品質が大幅に低下する可能性があることがわかりました。
さらなる調査により、この劣化は主に、空間的な高周波成分の減少と時間的な高周波成分の増加によって特徴付けられる、長いビデオの高周波成分の歪みによるものであることが判明しました。
これを動機として、私たちはノイズ除去プロセス中に長いビデオ特徴の周波数分布のバランスをとる、FreeLong という名前の新しいソリューションを提案します。
FreeLong は、ビデオ シーケンス全体をカプセル化するグローバル ビデオ機能の低周波コンポーネントと、フレームの短いサブシーケンスに焦点を当てたローカル ビデオ機能の高周波コンポーネントをブレンドします。
このアプローチは、グローバルな一貫性を維持しながら、ローカル ビデオから多様で高品質な時空間の詳細を組み込み、長いビデオ生成の一貫性と忠実性の両方を強化します。
私たちは複数の基本ビデオ拡散モデルで FreeLong を評価し、大幅な改善を観察しました。
さらに、私たちの方法は一貫したマルチプロンプト生成をサポートしており、視覚的な一貫性とシーン間のシームレスな移行の両方を保証します。

要約(オリジナル)

Video diffusion models have made substantial progress in various video generation applications. However, training models for long video generation tasks require significant computational and data resources, posing a challenge to developing long video diffusion models. This paper investigates a straightforward and training-free approach to extend an existing short video diffusion model (e.g. pre-trained on 16-frame videos) for consistent long video generation (e.g. 128 frames). Our preliminary observation has found that directly applying the short video diffusion model to generate long videos can lead to severe video quality degradation. Further investigation reveals that this degradation is primarily due to the distortion of high-frequency components in long videos, characterized by a decrease in spatial high-frequency components and an increase in temporal high-frequency components. Motivated by this, we propose a novel solution named FreeLong to balance the frequency distribution of long video features during the denoising process. FreeLong blends the low-frequency components of global video features, which encapsulate the entire video sequence, with the high-frequency components of local video features that focus on shorter subsequences of frames. This approach maintains global consistency while incorporating diverse and high-quality spatiotemporal details from local videos, enhancing both the consistency and fidelity of long video generation. We evaluated FreeLong on multiple base video diffusion models and observed significant improvements. Additionally, our method supports coherent multi-prompt generation, ensuring both visual coherence and seamless transitions between scenes.

arxiv情報

著者 Yu Lu,Yuanzhi Liang,Linchao Zhu,Yi Yang
発行日 2024-07-29 11:52:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク