CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities

要約

カスタマイズされたビデオ生成は、テキスト プロンプトと被験者の参照画像に基づいて高品質のビデオを生成することを目的としています。
ただし、静止画像でのみトレーニングされるため、主題学習の微調整プロセスにより、コンセプトを組み合わせてモーションを生成するビデオ拡散モデル (VDM) の機能が混乱します。
これらの機能を復元するために、一部のメソッドでは、プロンプトに似た追加のビデオを使用して、モデルを微調整またはガイドします。
これには、ガイドビデオを頻繁に変更したり、異なるモーションを生成するときにモデルを再調整したりする必要があり、ユーザーにとっては非常に不便です。
この論文では、追加のビデオや回復のための微調整を行わずに、モデルのモーション生成と概念的な組み合わせ能力を維持する新しいフレームワークである CustomCrafter を提案します。
概念的な組み合わせ能力を維持するために、VDM のいくつかのパラメーターを更新するプラグ アンド プレイ モジュールを設計し、外観の詳細をキャプチャするモデルの能力と新しい主題の概念の組み合わせの能力を強化します。
動きの生成については、VDM がノイズ除去の初期段階でビデオの動きを復元する一方で、後の段階では被写体の詳細の回復に重点を置く傾向があることが観察されました。
したがって、動的加重ビデオ サンプリング戦略を提案します。
主題学習モジュールのプラグ可能性を使用して、ノイズ除去の初期段階でのモーション生成に対するこのモジュールの影響を軽減し、VDM のモーションを生成する能力を維持します。
ノイズ除去の後の段階では、このモジュールを復元して、指定された被写体の外観の詳細を修復し、それによって被写体の外観の忠実性を保証します。
実験結果は、私たちの方法が以前の方法と比較して大幅に改善されたことを示しています。

要約(オリジナル)

Customized video generation aims to generate high-quality videos guided by text prompts and subject’s reference images. However, since it is only trained on static images, the fine-tuning process of subject learning disrupts abilities of video diffusion models (VDMs) to combine concepts and generate motions. To restore these abilities, some methods use additional video similar to the prompt to fine-tune or guide the model. This requires frequent changes of guiding videos and even re-tuning of the model when generating different motions, which is very inconvenient for users. In this paper, we propose CustomCrafter, a novel framework that preserves the model’s motion generation and conceptual combination abilities without additional video and fine-tuning to recovery. For preserving conceptual combination ability, we design a plug-and-play module to update few parameters in VDMs, enhancing the model’s ability to capture the appearance details and the ability of concept combinations for new subjects. For motion generation, we observed that VDMs tend to restore the motion of video in the early stage of denoising, while focusing on the recovery of subject details in the later stage. Therefore, we propose Dynamic Weighted Video Sampling Strategy. Using the pluggability of our subject learning modules, we reduce the impact of this module on motion generation in the early stage of denoising, preserving the ability to generate motion of VDMs. In the later stage of denoising, we restore this module to repair the appearance details of the specified subject, thereby ensuring the fidelity of the subject’s appearance. Experimental results show that our method has a significant improvement compared to previous methods.

arxiv情報

著者 Tao Wu,Yong Zhang,Xintao Wang,Xianpan Zhou,Guangcong Zheng,Zhongang Qi,Ying Shan,Xi Li
発行日 2024-08-23 17:26:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク