Training-free Long Video Generation with Chain of Diffusion Model Experts

要約

ビデオ生成モデルは、映画制作などの分野で大きな可能性を秘めています。
しかし、現在のビデオ拡散モデルは、ビデオ生成タスクが非常に複雑であるため、高い計算コストを必要とし、最適とは言えない結果を生み出します。
この論文では、ビデオ生成を構造 \textbf{con}trol と時空間 re\textbf{fine}ment というより簡単なサブタスクに分離する効率的な高品質ビデオ生成フレームワーク \textbf{ConFiner} を提案します。
既製の拡散モデルの専門家チェーンを使用して高品質のビデオを生成できます。各専門家は分離されたサブタスクを担当します。
改良中に、複数の拡散専門家の能力を 1 つのサンプリングに統合できる、調整されたノイズ除去が導入されます。
さらに、ConFiner 上で 3 つの制約戦略を使用して長時間コヒーレントなビデオを生成できる ConFiner-Long フレームワークを設計します。
実験結果は、わずか 10% の推論コストで、当社の ConFiner が、すべての客観的および主観的な指標において、Lavie や Modelscope などの代表的なモデルを上回ることを示しています。
ConFiner-Long は、最大 600 フレームの高品質で一貫性のあるビデオを生成できます。

要約(オリジナル)

Video generation models hold substantial potential in areas such as filmmaking. However, current video diffusion models need high computational costs and produce suboptimal results due to high complexity of video generation task. In this paper, we propose \textbf{ConFiner}, an efficient high-quality video generation framework that decouples video generation into easier subtasks: structure \textbf{con}trol and spatial-temporal re\textbf{fine}ment. It can generate high-quality videos with chain of off-the-shelf diffusion model experts, each expert responsible for a decoupled subtask. During the refinement, we introduce coordinated denoising, which can merge multiple diffusion experts’ capabilities into a single sampling. Furthermore, we design ConFiner-Long framework, which can generate long coherent video with three constraint strategies on ConFiner. Experimental results indicate that with only 10\% of the inference cost, our ConFiner surpasses representative models like Lavie and Modelscope across all objective and subjective metrics. And ConFiner-Long can generate high-quality and coherent videos with up to 600 frames.

arxiv情報

著者 Wenhao Li,Yichao Cao,Xiu Su,Xi Lin,Shan You,Mingkai Zheng,Yi Chen,Chang Xu
発行日 2024-09-02 18:02:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク