要約
既存の拡散モデルは、アイデンティティを提供する生成の大きな可能性を示しています。
ただし、外観や照明条件の変動など、ユーザープロファイルの多様性があるため、パーソナライズされたポートレート生成は依然として困難です。
これらの課題に対処するために、パーソナライズされたポートレート生成のために個々のアイデンティティを正確にエンコードするように設計された新しいフレームワークであるIC-Portraitを提案します。
私たちの重要な洞察は、事前に訓練された拡散モデルは、コンテキスト内の密な対応マッチングのための高速学習者(たとえば、100〜200ステップ)であり、IC-Portraitフレームワークの2つの主要な設計を動機付けていることです。
具体的には、ポートレート生成を2つのサブタスクに再定式化します。1)照明認識ステッチ:入力画像の高い割合、たとえば80%をマスキングすると、参照画像照明の非常に効果的な自己監視表現学習が得られることがわかります。
2)視界並べ替えの適応:合成ビューの整合性プロファイルデータセットを活用して、コンテキスト内の対応を学習します。
参照プロファイルは、強力な空間整列ビューコンディショニングのために、任意のポーズにゆがんでいます。
潜伏物質を単純に連結してControlNetのような監督とモデリングを形成するだけでこれらの2つの設計を結合することで、アイデンティティの保存の忠実度と安定性を大幅に強化することができます。
広範な評価は、IC-Portraitが既存の最先端の方法を定量的および定性的に常に上回っており、視覚的品質の特に顕著な改善が一貫していることを示しています。
さらに、IC-Portraitは、3Dを意識した再視力能力を示しています。
要約(オリジナル)
Existing diffusion models show great potential for identity-preserving generation. However, personalized portrait generation remains challenging due to the diversity in user profiles, including variations in appearance and lighting conditions. To address these challenges, we propose IC-Portrait, a novel framework designed to accurately encode individual identities for personalized portrait generation. Our key insight is that pre-trained diffusion models are fast learners (e.g.,100 ~ 200 steps) for in-context dense correspondence matching, which motivates the two major designs of our IC-Portrait framework. Specifically, we reformulate portrait generation into two sub-tasks: 1) Lighting-Aware Stitching: we find that masking a high proportion of the input image, e.g., 80%, yields a highly effective self-supervisory representation learning of reference image lighting. 2) View-Consistent Adaptation: we leverage a synthetic view-consistent profile dataset to learn the in-context correspondence. The reference profile can then be warped into arbitrary poses for strong spatial-aligned view conditioning. Coupling these two designs by simply concatenating latents to form ControlNet-like supervision and modeling, enables us to significantly enhance the identity preservation fidelity and stability. Extensive evaluations demonstrate that IC-Portrait consistently outperforms existing state-of-the-art methods both quantitatively and qualitatively, with particularly notable improvements in visual qualities. Furthermore, IC-Portrait even demonstrates 3D-aware relighting capabilities.
arxiv情報
著者 | Han Yang,Enis Simsar,Sotiris Anagnostidi,Yanlong Zang,Thomas Hofmann,Ziwei Liu |
発行日 | 2025-01-28 18:59:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google