ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving

要約

拡散ベースのテクノロジーは、特にパーソナライズおよびカスタマイズされた顔の生成において大幅な進歩を遂げました。
しかし、既存の方法は、主に顔領域に対するきめ細かい制御が不十分であり、複雑な顔の詳細と顔全体を十分に考慮した ID 保存のための包括的な戦略が欠如しているため、高忠実度で詳細な ID の一貫性を達成するという課題に直面しています。

これらの制限に対処するために、私たちは ConsistentID を導入しました。これは、単一の参照画像のみを利用して、きめの細かいマルチモーダルな顔のプロンプトの下で多様なアイデンティティを保持したポートレートを生成するために作られた革新的な方法です。
ConsistentID は 2 つの重要なコンポーネントで構成されます。1 つは顔の特徴、対応する顔の説明、全体的な顔のコンテキストを組み合わせて顔の詳細の精度を高めるマルチモーダルな顔プロンプト ジェネレーター、もう 1 つは ID の一貫性を維持することを目的として、顔の注目の位置特定戦略を通じて最適化された ID 保存ネットワークです。
顔の領域で。
これらのコンポーネントを組み合わせると、顔領域からのきめ細かいマルチモーダル ID 情報が導入されるため、ID 保存の精度が大幅に向上します。
ConsistentID のトレーニングを容易にするために、500,000 を超える顔画像を含むきめ細かい肖像画データセット FGID を提供し、既存の公開顔データセットよりも優れた多様性と包括性を提供します。
LAION-Face、CelebA、FFHQ、SFHQなどの%。
実験結果は、当社の ConsistentID がパーソナライズされた顔の生成において優れた精度と多様性を実現し、MyStyle データセットの既存の方法を上回っていることを実証しています。
さらに、ConsistentID はより多くのマルチモーダルな ID 情報を導入しますが、生成中に高速な推論速度を維持します。

要約(オリジナル)

Diffusion-based technologies have made significant strides, particularly in personalized and customized facialgeneration. However, existing methods face challenges in achieving high-fidelity and detailed identity (ID)consistency, primarily due to insufficient fine-grained control over facial areas and the lack of a comprehensive strategy for ID preservation by fully considering intricate facial details and the overall face. To address these limitations, we introduce ConsistentID, an innovative method crafted for diverseidentity-preserving portrait generation under fine-grained multimodal facial prompts, utilizing only a single reference image. ConsistentID comprises two key components: a multimodal facial prompt generator that combines facial features, corresponding facial descriptions and the overall facial context to enhance precision in facial details, and an ID-preservation network optimized through the facial attention localization strategy, aimed at preserving ID consistency in facial regions. Together, these components significantly enhance the accuracy of ID preservation by introducing fine-grained multimodal ID information from facial regions. To facilitate training of ConsistentID, we present a fine-grained portrait dataset, FGID, with over 500,000 facial images, offering greater diversity and comprehensiveness than existing public facial datasets. % such as LAION-Face, CelebA, FFHQ, and SFHQ. Experimental results substantiate that our ConsistentID achieves exceptional precision and diversity in personalized facial generation, surpassing existing methods in the MyStyle dataset. Furthermore, while ConsistentID introduces more multimodal ID information, it maintains a fast inference speed during generation.

arxiv情報

著者 Jiehui Huang,Xiao Dong,Wenhui Song,Hanhui Li,Jun Zhou,Yuhao Cheng,Shutao Liao,Long Chen,Yiqiang Yan,Shengcai Liao,Xiaodan Liang
発行日 2024-04-25 17:23:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク