要約
私たちは、人間中心の新しい画像合成タスクに焦点を当てます。つまり、参照顔写真が 1 枚だけ与えられると、さまざまな状況でさまざまな頭の位置、ポーズ、表情、照明を備えた特定の個別の画像が生成されることが期待されます。
この目標を達成するために、私たちの生成モデルは次の有利な特性を備えている必要があると主張します。 (1) 基本的なオブジェクトと人間のイメージの生成のための、私たちの世界と人間社会の強力な視覚的および意味論的な理解。
(2) 一般化可能な同一性保持能力。
(3) 柔軟かつきめ細かなヘッドコントロール。
最近、事前トレーニングされた大規模なテキストから画像への拡散モデルが顕著な結果を示し、強力な生成基盤として機能しています。
基礎として、事前トレーニングされたモデルの上記 2 つの機能を解放することを目指しています。
この作業では、CapHuman という名前の新しいフレームワークを紹介します。
私たちは、「エンコードしてから調整を学習する」パラダイムを採用しています。これにより、推論時に面倒な調整を行うことなく、新しい個人に対して一般化可能なアイデンティティの保存が可能になります。
CapHuman はアイデンティティ特徴をエンコードし、それを潜在空間に配置することを学習します。
さらに、柔軟かつ 3D 一貫性のある方法で人間の頭部を制御できるようにモデルを装備する前に、3D フェイシャルを導入します。
広範な定性的および定量的分析により、当社の CapHuman は、確立されたベースラインよりも優れた、コンテンツ豊富な表現とさまざまな頭の表現を備えた、アイデンティティがよく保存され、フォトリアリスティックで忠実度の高いポートレートを作成できることが実証されています。
コードとチェックポイントは https://github.com/VamosC/CapHuman でリリースされます。
要約(オリジナル)
We concentrate on a novel human-centric image synthesis task, that is, given only one reference facial photograph, it is expected to generate specific individual images with diverse head positions, poses, facial expressions, and illuminations in different contexts. To accomplish this goal, we argue that our generative model should be capable of the following favorable characteristics: (1) a strong visual and semantic understanding of our world and human society for basic object and human image generation. (2) generalizable identity preservation ability. (3) flexible and fine-grained head control. Recently, large pre-trained text-to-image diffusion models have shown remarkable results, serving as a powerful generative foundation. As a basis, we aim to unleash the above two capabilities of the pre-trained model. In this work, we present a new framework named CapHuman. We embrace the ‘encode then learn to align’ paradigm, which enables generalizable identity preservation for new individuals without cumbersome tuning at inference. CapHuman encodes identity features and then learns to align them into the latent space. Moreover, we introduce the 3D facial prior to equip our model with control over the human head in a flexible and 3D-consistent manner. Extensive qualitative and quantitative analyses demonstrate our CapHuman can produce well-identity-preserved, photo-realistic, and high-fidelity portraits with content-rich representations and various head renditions, superior to established baselines. Code and checkpoint will be released at https://github.com/VamosC/CapHuman.
arxiv情報
著者 | Chao Liang,Fan Ma,Linchao Zhu,Yingying Deng,Yi Yang |
発行日 | 2024-02-19 11:33:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google