要約
現在の顔の再現および交換方法は主に GAN フレームワークに依存していますが、最近では、優れた生成機能を備えた事前トレーニングされた拡散モデルに焦点が移ってきています。
ただし、これらのモデルのトレーニングにはリソースが大量に消費され、その結果はまだ満足のいくパフォーマンス レベルに達していません。
この問題に対処するために、事前トレーニングされた拡散モデルの高精度かつ高忠実度の顔編集用に設計された効率的かつ効果的なアダプターである Face-Adapter を導入します。
どちらの顔の再現/交換タスクにも、基本的にターゲット構造、ID、属性の組み合わせが含まれることがわかります。
私たちは、これらの要因の制御を十分に分離して、両方のタスクを 1 つのモデルで達成することを目指しています。
具体的には、私たちの方法には次のものが含まれます。 1) 正確なランドマークと背景を提供する空間条件ジェネレーター。
2) トランスフォーマー デコーダーによって顔の埋め込みをテキスト空間に転送するプラグ アンド プレイ ID エンコーダー。
3) 空間条件と詳細な属性を統合する属性コントローラー。
Face-Adapter は、完全に微調整された顔の再現/交換モデルと比較して、モーション コントロールの精度、ID 保持機能、生成品質の点で同等またはそれ以上のパフォーマンスを実現します。
さらに、Face-Adapter はさまざまな StableDiffusion モデルとシームレスに統合します。
要約(オリジナル)
Current face reenactment and swapping methods mainly rely on GAN frameworks, but recent focus has shifted to pre-trained diffusion models for their superior generation capabilities. However, training these models is resource-intensive, and the results have not yet achieved satisfactory performance levels. To address this issue, we introduce Face-Adapter, an efficient and effective adapter designed for high-precision and high-fidelity face editing for pre-trained diffusion models. We observe that both face reenactment/swapping tasks essentially involve combinations of target structure, ID and attribute. We aim to sufficiently decouple the control of these factors to achieve both tasks in one model. Specifically, our method contains: 1) A Spatial Condition Generator that provides precise landmarks and background; 2) A Plug-and-play Identity Encoder that transfers face embeddings to the text space by a transformer decoder. 3) An Attribute Controller that integrates spatial conditions and detailed attributes. Face-Adapter achieves comparable or even superior performance in terms of motion control precision, ID retention capability, and generation quality compared to fully fine-tuned face reenactment/swapping models. Additionally, Face-Adapter seamlessly integrates with various StableDiffusion models.
arxiv情報
著者 | Yue Han,Junwei Zhu,Keke He,Xu Chen,Yanhao Ge,Wei Li,Xiangtai Li,Jiangning Zhang,Chengjie Wang,Yong Liu |
発行日 | 2024-05-21 17:50:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google