Arc2Face: A Foundation Model of Human Faces

要約

この論文では、アイデンティティ条件付きの顔基礎モデルである Arc2Face を紹介します。これは、人の ArcFace 埋め込みを考慮すると、既存のモデルよりも比類のない顔の類似性を備えた多様なフォトリアリスティックな画像を生成できます。
顔認識特徴を詳細な画像にデコードするこれまでの試みにもかかわらず、一般的な高解像度データセット (FFHQ など) には被写体を再構成するのに十分なアイデンティティが欠けていることがわかりました。
そのために、私たちは顔認識 (FR) 用の最大の公開データセットである WebFace42M データベースの重要な部分を細心の注意を払ってアップサンプリングしました。
Arc2Face は、事前トレーニング済みの安定拡散モデルに基づいて構築されていますが、ID ベクトルのみに基づいて条件付けされた ID-to-face 生成のタスクにそれを適応させます。
ID とテキスト埋め込みを組み合わせてテキストから画像へのモデルをゼロショットでパーソナライゼーションする最近の研究とは異なり、手作りのプロンプトではなく、人間の顔の本質を完全に捉えることができる FR 機能のコンパクトさに重点を置いています。

重要なのは、テキスト拡張モデルはアイデンティティとテキストを切り離すのに苦労しており、通常、満足のいく類似性を達成するには、指定された顔の何らかの記述が必要です。
ただし、Arc2Face は、生成をガイドするために ArcFace の識別機能のみを必要とし、ID の一貫性が最も重要である多数のタスクに対して堅牢な事前分布を提供します。
例として、モデルの合成画像で FR モデルをトレーニングし、既存の合成データセットよりも優れたパフォーマンスを実現します。

要約(オリジナル)

This paper presents Arc2Face, an identity-conditioned face foundation model, which, given the ArcFace embedding of a person, can generate diverse photo-realistic images with an unparalleled degree of face similarity than existing models. Despite previous attempts to decode face recognition features into detailed images, we find that common high-resolution datasets (e.g. FFHQ) lack sufficient identities to reconstruct any subject. To that end, we meticulously upsample a significant portion of the WebFace42M database, the largest public dataset for face recognition (FR). Arc2Face builds upon a pretrained Stable Diffusion model, yet adapts it to the task of ID-to-face generation, conditioned solely on ID vectors. Deviating from recent works that combine ID with text embeddings for zero-shot personalization of text-to-image models, we emphasize on the compactness of FR features, which can fully capture the essence of the human face, as opposed to hand-crafted prompts. Crucially, text-augmented models struggle to decouple identity and text, usually necessitating some description of the given face to achieve satisfactory similarity. Arc2Face, however, only needs the discriminative features of ArcFace to guide the generation, offering a robust prior for a plethora of tasks where ID consistency is of paramount importance. As an example, we train a FR model on synthetic images from our model and achieve superior performance to existing synthetic datasets.

arxiv情報

著者 Foivos Paraperas Papantoniou,Alexandros Lattas,Stylianos Moschoglou,Jiankang Deng,Bernhard Kainz,Stefanos Zafeiriou
発行日 2024-03-18 10:32:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク