要約
一貫性モデルは、効率的な画像生成における強力な機能を実証し、数回のサンプリング ステップ内で合成を可能にし、拡散モデルの高い計算コストを軽減します。
ただし、より困難でリソースを消費するビデオ生成における一貫性モデルについては、まだあまり調査されていません。
このレポートでは、このギャップを埋めるための VideoLCM フレームワークを紹介します。このフレームワークは、画像生成から一貫性モデルの概念を活用して、高品質を維持しながら最小限のステップで効率的にビデオを合成します。
VideoLCM は、既存の潜在ビデオ拡散モデルに基づいて構築されており、潜在一貫性モデルをトレーニングするための一貫性蒸留技術が組み込まれています。
実験結果は、計算効率、忠実度、時間的一貫性の点で VideoLCM の有効性を明らかにしました。
特に、VideoLCM はわずか 4 つのサンプリング ステップで高忠実度でスムーズなビデオ合成を実現し、リアルタイム合成の可能性を示しています。
VideoLCM が、その後の研究のシンプルかつ効果的なベースラインとして機能することを願っています。
ソースコードとモデルは公開されます。
要約(オリジナル)
Consistency models have demonstrated powerful capability in efficient image generation and allowed synthesis within a few sampling steps, alleviating the high computational cost in diffusion models. However, the consistency model in the more challenging and resource-consuming video generation is still less explored. In this report, we present the VideoLCM framework to fill this gap, which leverages the concept of consistency models from image generation to efficiently synthesize videos with minimal steps while maintaining high quality. VideoLCM builds upon existing latent video diffusion models and incorporates consistency distillation techniques for training the latent consistency model. Experimental results reveal the effectiveness of our VideoLCM in terms of computational efficiency, fidelity and temporal consistency. Notably, VideoLCM achieves high-fidelity and smooth video synthesis with only four sampling steps, showcasing the potential for real-time synthesis. We hope that VideoLCM can serve as a simple yet effective baseline for subsequent research. The source code and models will be publicly available.
arxiv情報
著者 | Xiang Wang,Shiwei Zhang,Han Zhang,Yu Liu,Yingya Zhang,Changxin Gao,Nong Sang |
発行日 | 2023-12-14 16:45:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google