要約
指定された ID (ID) を使用してコンテンツを作成することは、生成モデルの分野で大きな関心を集めています。
テキストから画像への生成 (T2I) の分野では、参照画像によって制御されるアイデンティティにより、主題主導の創作が大きな進歩を遂げました。
ただし、ビデオ生成への拡張については十分に調査されていません。
この研究では、ビデオ カスタム ディフュージョン (VCD) と呼ばれる、シンプルでありながら効果的な、主体アイデンティティ制御可能なビデオ生成フレームワークを提案します。
いくつかの画像によって定義される指定されたアイデンティティを使用して、VCD はアイデンティティ特性を強化し、安定したビデオ出力のために初期化段階でフレームごとの相関を注入します。
これを達成するために、高品質のアイデンティティの保持と安定したビデオ生成に不可欠な 3 つの新しいコンポーネントを提案します。1) フレーム間の安定性を高めるための 3D ガウス ノイズ プライアによるノイズ初期化方法。
2) トリミングされたアイデンティティを使用してトレーニングされた拡張テキスト反転に基づく ID モジュールにより、背景から ID 情報が分離されます。 3) 顔 VCD およびタイル VCD モジュールにより、アイデンティティの特徴を維持しながら顔を強化し、ビデオを高解像度にアップスケーリングします。
VCD がベースラインよりも優れた ID を持つ安定したビデオを生成できることを確認するために、広範な実験を実施しました。
さらに、ID モジュールでエンコードされた ID を転送できるため、VCD は公的に入手可能なパーソナライズされたテキストから画像へのモデルともうまく機能します。
コードは https://github.com/Zhen-Dong/Magic-Me で入手できます。
要約(オリジナル)
Creating content with specified identities (ID) has attracted significant interest in the field of generative models. In the field of text-to-image generation (T2I), subject-driven creation has achieved great progress with the identity controlled via reference images. However, its extension to video generation is not well explored. In this work, we propose a simple yet effective subject identity controllable video generation framework, termed Video Custom Diffusion (VCD). With a specified identity defined by a few images, VCD reinforces the identity characteristics and injects frame-wise correlation at the initialization stage for stable video outputs. To achieve this, we propose three novel components that are essential for high-quality identity preservation and stable video generation: 1) a noise initialization method with 3D Gaussian Noise Prior for better inter-frame stability; 2) an ID module based on extended Textual Inversion trained with the cropped identity to disentangle the ID information from the background 3) Face VCD and Tiled VCD modules to reinforce faces and upscale the video to higher resolution while preserving the identity’s features. We conducted extensive experiments to verify that VCD is able to generate stable videos with better ID over the baselines. Besides, with the transferability of the encoded identity in the ID module, VCD is also working well with personalized text-to-image models available publicly. The codes are available at https://github.com/Zhen-Dong/Magic-Me.
arxiv情報
著者 | Ze Ma,Daquan Zhou,Chun-Hsiao Yeh,Xue-She Wang,Xiuyu Li,Huanrui Yang,Zhen Dong,Kurt Keutzer,Jiashi Feng |
発行日 | 2024-03-20 17:36:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google