ID-Animator: Zero-Shot Identity-Preserving Human Video Generation

要約

指定されたアイデンティティを持つ忠実度の高い人間のビデオを生成することは、コンテンツ生成コミュニティで大きな注目を集めています。
しかし、既存の技術では、トレーニングの効率とアイデンティティの保存のバランスを取るのに苦労しており、ケースバイケースでの面倒な微調整が必​​要になったり、ビデオ生成プロセスでアイデンティティの詳細が欠落したりすることがよくあります。
この研究では、追加のトレーニングなしで単一の参照顔画像が与えられた場合にパーソナライズされたビデオ生成を実行できる、ゼロショットの人間ビデオ生成アプローチである ID-Animator を紹介します。
ID-Animator は、顔アダプターを備えた既存の拡散ベースのビデオ生成バックボーンを継承し、学習可能な顔の潜在クエリから ID 関連の埋め込みをエンコードします。
ビデオ生成におけるアイデンティティ情報の抽出を容易にするために、構築された顔画像プールから分離された人間の属性とアクション キャプション技術を組み込んだ ID 指向のデータセット構築パイプラインを導入します。
このパイプラインに基づいて、ランダムな顔参照トレーニング方法がさらに考案され、参照画像から ID 関連のエンベディングを正確にキャプチャできるため、ID 固有のビデオ生成モデルの忠実性と一般化能力が向上します。
広範な実験により、パーソナライズされた人間のビデオを生成する ID-Animator が以前のモデルよりも優れていることが実証されました。
さらに、私たちの手法は、animateiff などの一般的な事前トレーニング済み T2V モデルやさまざまなコミュニティ バックボーン モデルと高い互換性があり、アイデンティティの保持が強く求められるビデオ生成のための実世界のアプリケーションでも高い拡張性を示します。
コードとチェックポイントは https://github.com/ID-Animator/ID-Animator でリリースされます。

要約(オリジナル)

Generating high fidelity human video with specified identities has attracted significant attention in the content generation community. However, existing techniques struggle to strike a balance between training efficiency and identity preservation, either requiring tedious case-by-case finetuning or usually missing the identity details in video generation process. In this study, we present ID-Animator, a zero-shot human-video generation approach that can perform personalized video generation given single reference facial image without further training. ID-Animator inherits existing diffusion-based video generation backbones with a face adapter to encode the ID-relevant embeddings from learnable facial latent queries. To facilitate the extraction of identity information in video generation, we introduce an ID-oriented dataset construction pipeline, which incorporates decoupled human attribute and action captioning technique from a constructed facial image pool. Based on this pipeline, a random face reference training method is further devised to precisely capture the ID-relevant embeddings from reference images, thus improving the fidelity and generalization capacity of our model for ID-specific video generation. Extensive experiments demonstrate the superiority of ID-Animator to generate personalized human videos over previous models. Moreover, our method is highly compatible with popular pre-trained T2V models like animatediff and various community backbone models, showing high extendability in real-world applications for video generation where identity preservation is highly desired. Our codes and checkpoints will be released at https://github.com/ID-Animator/ID-Animator.

arxiv情報

著者 Xuanhua He,Quande Liu,Shengju Qian,Xin Wang,Tao Hu,Ke Cao,Keyu Yan,Man Zhou,Jie Zhang
発行日 2024-04-23 17:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク