要約
指定されたアイデンティティを持つ忠実度の高い人間のビデオを生成することは、コンテンツ生成コミュニティで大きな注目を集めています。
しかし、既存の技術では、トレーニングの効率とアイデンティティの保存のバランスを取るのが難しく、ケースバイケースでの面倒な微調整が必要になったり、ビデオ生成プロセスでアイデンティティの詳細が欠落したりすることがよくあります。
この研究では、\textbf{ID-Animator} を紹介します。これは、追加のトレーニングを行わずに、単一の参照顔画像が与えられた場合にパーソナライズされたビデオ生成を実行できる、ゼロショットの人間ビデオ生成アプローチです。
ID-Animator は、顔アダプターを備えた既存の拡散ベースのビデオ生成バックボーンを継承し、学習可能な顔の潜在クエリから ID 関連の埋め込みをエンコードします。
ビデオ生成におけるアイデンティティ情報の抽出を容易にするために、統合された人間の属性と構築された顔画像プールからのアクション キャプション技術を組み込んだ ID 指向のデータセット構築パイプラインを導入します。
このパイプラインに基づいて、ランダム参照トレーニング戦略がさらに考案され、ID 保存損失を伴う ID 関連のエンベディングを正確にキャプチャすることで、ID 固有のビデオ生成モデルの忠実性と一般化能力が向上します。
広範な実験により、パーソナライズされた人間のビデオを生成する ID-Animator が以前のモデルよりも優れていることが実証されました。
さらに、私たちの手法は、animateiff などの一般的な事前トレーニング済み T2V モデルやさまざまなコミュニティ バックボーン モデルと高い互換性があり、アイデンティティの保持が強く求められるビデオ生成のための実世界のアプリケーションでも高い拡張性を示します。
コードとチェックポイントは https://github.com/ID-Animator/ID-Animator でリリースされています。
要約(オリジナル)
Generating high-fidelity human video with specified identities has attracted significant attention in the content generation community. However, existing techniques struggle to strike a balance between training efficiency and identity preservation, either requiring tedious case-by-case fine-tuning or usually missing identity details in the video generation process. In this study, we present \textbf{ID-Animator}, a zero-shot human-video generation approach that can perform personalized video generation given a single reference facial image without further training. ID-Animator inherits existing diffusion-based video generation backbones with a face adapter to encode the ID-relevant embeddings from learnable facial latent queries. To facilitate the extraction of identity information in video generation, we introduce an ID-oriented dataset construction pipeline that incorporates unified human attributes and action captioning techniques from a constructed facial image pool. Based on this pipeline, a random reference training strategy is further devised to precisely capture the ID-relevant embeddings with an ID-preserving loss, thus improving the fidelity and generalization capacity of our model for ID-specific video generation. Extensive experiments demonstrate the superiority of ID-Animator to generate personalized human videos over previous models. Moreover, our method is highly compatible with popular pre-trained T2V models like animatediff and various community backbone models, showing high extendability in real-world applications for video generation where identity preservation is highly desired. Our codes and checkpoints are released at https://github.com/ID-Animator/ID-Animator.
arxiv情報
著者 | Xuanhua He,Quande Liu,Shengju Qian,Xin Wang,Tao Hu,Ke Cao,Keyu Yan,Jie Zhang |
発行日 | 2024-06-25 16:57:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google