Magic-Me: Identity-Specific Video Customized Diffusion

要約

特定の ID (ID) のコンテンツを作成することは、生成モデルの分野で大きな関心を集めています。
テキストから画像への生成 (T2I) の分野では、画像内の ID を制御できるようになり、主題主導型のコンテンツ生成が大きな進歩を遂げました。
ただし、これをビデオ生成に拡張することについては十分に検討されていません。
この研究では、ビデオ カスタム ディフュージョン (VCD) と呼ばれる、シンプルでありながら効果的な、主体アイデンティティ制御可能なビデオ生成フレームワークを提案します。
少数の画像で定義された特定の被写体 ID を使用して、VCD はアイデンティティ情報の抽出を強化し、初期化段階でフレームごとの相関を注入して、アイデンティティが大幅に保存された安定したビデオ出力を実現します。
これを達成するために、高品質な ID 保存に不可欠な 3 つの新しいコンポーネントを提案します。 1) より正確な ID トークン学習のために ID 情報とバックグラウンド ノイズを解きほぐすプロンプト トゥ セグメンテーションによって切り取られた ID でトレーニングされた ID モジュール
;
2) フレーム間の一貫性を向上させる 3D ガウス ノイズ プリアを備えたテキストツービデオ (T2V) VCD モジュール、および 3) 顔のブレを除去し、ビデオをアップスケーリングするビデオツービデオ (V2V) 顔 VCD およびタイル VCD モジュール
より高い解像度。
そのシンプルさにもかかわらず、VCD が選択された強力なベースラインよりも優れた ID を持つ安定した高品質のビデオを生成できることを検証するために広範な実験を実施しました。
さらに、ID モジュールの転送可能性により、VCD は一般に入手可能な微調整されたテキストから画像へのモデルともうまく機能し、使いやすさがさらに向上します。
コードは https://github.com/Zhen-Dong/Magic-Me で入手できます。

要約(オリジナル)

Creating content for a specific identity (ID) has shown significant interest in the field of generative models. In the field of text-to-image generation (T2I), subject-driven content generation has achieved great progress with the ID in the images controllable. However, extending it to video generation is not well explored. In this work, we propose a simple yet effective subject identity controllable video generation framework, termed Video Custom Diffusion (VCD). With a specified subject ID defined by a few images, VCD reinforces the identity information extraction and injects frame-wise correlation at the initialization stage for stable video outputs with identity preserved to a large extent. To achieve this, we propose three novel components that are essential for high-quality ID preservation: 1) an ID module trained with the cropped identity by prompt-to-segmentation to disentangle the ID information and the background noise for more accurate ID token learning; 2) a text-to-video (T2V) VCD module with 3D Gaussian Noise Prior for better inter-frame consistency and 3) video-to-video (V2V) Face VCD and Tiled VCD modules to deblur the face and upscale the video for higher resolution. Despite its simplicity, we conducted extensive experiments to verify that VCD is able to generate stable and high-quality videos with better ID over the selected strong baselines. Besides, due to the transferability of the ID module, VCD is also working well with finetuned text-to-image models available publically, further improving its usability. The codes are available at https://github.com/Zhen-Dong/Magic-Me.

arxiv情報

著者 Ze Ma,Daquan Zhou,Chun-Hsiao Yeh,Xue-She Wang,Xiuyu Li,Huanrui Yang,Zhen Dong,Kurt Keutzer,Jiashi Feng
発行日 2024-02-14 18:13:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク