AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

要約

ビデオ普及モデルは、一貫性と忠実性の両方を備えたビデオを作成できるため、ますます注目を集めています。
ただし、反復的なノイズ除去プロセスにより、計算量が多くなり、時間がかかるため、その用途が制限されます。
最小限のステップでサンプリングを高速化するために事前トレーニングされた画像拡散モデルを抽出する一貫性モデル (CM) と、条件付き画像生成でのその拡張に成功した潜在一貫性モデル (LCM) からインスピレーションを得て、最小限のステップで忠実度の高いビデオ生成を可能にする AnimateLCM を提案します。

生のビデオ データセットに対して整合性学習を直接実行する代わりに、画像生成事前分布とモーション生成事前分布の蒸留を分離する分離型一貫性学習戦略を提案します。これにより、トレーニング効率が向上し、生成の視覚的品質が向上します。
さらに、安定した拡散コミュニティでプラグアンドプレイ アダプタを組み合わせてさまざまな機能を実現できるようにします (例: 制御可能な生成のための ControlNet)。
私たちは、抽出されたテキスト条件付きビデオ一貫性モデルに既存のアダプターを適応させる、またはサンプリング速度を損なうことなくアダプターを最初からトレーニングするための効率的な戦略を提案します。
画像条件付きビデオ生成とレイアウト条件付きビデオ生成で提案された戦略を検証し、すべて最高のパフォーマンスの結果を達成しました。
実験結果により、提案した方法の有効性が検証されました。
コードと重みは公開されます。
詳細については、https://github.com/G-U-N/AnimateLCM をご覧ください。

要約(オリジナル)

Video diffusion models has been gaining increasing attention for its ability to produce videos that are both coherent and of high fidelity. However, the iterative denoising process makes it computationally intensive and time-consuming, thus limiting its applications. Inspired by the Consistency Model (CM) that distills pretrained image diffusion models to accelerate the sampling with minimal steps and its successful extension Latent Consistency Model (LCM) on conditional image generation, we propose AnimateLCM, allowing for high-fidelity video generation within minimal steps. Instead of directly conducting consistency learning on the raw video dataset, we propose a decoupled consistency learning strategy that decouples the distillation of image generation priors and motion generation priors, which improves the training efficiency and enhance the generation visual quality. Additionally, to enable the combination of plug-and-play adapters in stable diffusion community to achieve various functions (e.g., ControlNet for controllable generation). we propose an efficient strategy to adapt existing adapters to our distilled text-conditioned video consistency model or train adapters from scratch without harming the sampling speed. We validate the proposed strategy in image-conditioned video generation and layout-conditioned video generation, all achieving top-performing results. Experimental results validate the effectiveness of our proposed method. Code and weights will be made public. More details are available at https://github.com/G-U-N/AnimateLCM.

arxiv情報

著者 Fu-Yun Wang,Zhaoyang Huang,Xiaoyu Shi,Weikang Bian,Guanglu Song,Yu Liu,Hongsheng Li
発行日 2024-02-01 16:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク