要約
本論文では、単一の芸術的目標を持つ顔のスタイライゼーションに焦点を当てる。このタスクのための既存の作品は、しばしば、ジオメトリのバリエーションを実現しながら、ソースの内容を保持することができない。ここでは、上記の問題を解決するために、StyOモデル(Stylize the face in only One-shot)を提案する。特に、StyOは、離散化と再結合戦略を利用する。StyOはまず、ソース画像とターゲット画像の内容とスタイルを識別子に分解し、それらをクロス方式で再結合して、スタイライズされた顔画像を導出します。このように、StyOは複雑な画像を独立した特定の属性に分解し、入力画像からの異なる属性の組み合わせとして一発の顔のスタイル化を単純化することで、ターゲット画像の顔の形状とソース画像のコンテンツがよりマッチした結果を生み出します。StyOは、潜在拡散モデル(LDM)を用いて実装されており、以下の2つの主要なモジュールから構成されています。1) 識別子分離学習器(IDL):識別子の分離を行う。IDLは、識別子を対照的なテキストプロンプト、すなわち、肯定的な記述と否定的な記述として表現する。また、スタイルとコンテンツを対応する識別子にエンコードするために、事前に訓練されたLDMを微調整するための新しい三重再構成損失を導入している。 2) 組み替えフェーズでは、FCC (Fine-grained Content Controller)を用いる。IDLから分離された識別子を再結合し、スタイル化された顔を生成するための拡張テキストプロンプトを形成します。さらに、FCCは、潜在的な特徴とテキスト特徴のクロスアテンションマップを制約し、結果において顔の詳細な情報を保持します。広範な評価により、StyOは様々なスタイルの多数の絵画で高品質の画像を生成し、現在の最先端技術を凌駕することが示されました。コードは受理され次第、公開される予定です。
要約(オリジナル)
This paper focuses on face stylization with a single artistic target. Existing works for this task often fail to retain the source content while achieving geometry variation. Here, we present a novel StyO model, ie. Stylize the face in only One-shot, to solve the above problem. In particular, StyO exploits a disentanglement and recombination strategy. It first disentangles the content and style of source and target images into identifiers, which are then recombined in a cross manner to derive the stylized face image. In this way, StyO decomposes complex images into independent and specific attributes, and simplifies one-shot face stylization as the combination of different attributes from input images, thus producing results better matching face geometry of target image and content of source one. StyO is implemented with latent diffusion models (LDM) and composed of two key modules: 1) Identifier Disentanglement Learner (IDL) for disentanglement phase. It represents identifiers as contrastive text prompts, ie. positive and negative descriptions. And it introduces a novel triple reconstruction loss to fine-tune the pre-trained LDM for encoding style and content into corresponding identifiers; 2) Fine-grained Content Controller (FCC) for the recombination phase. It recombines disentangled identifiers from IDL to form an augmented text prompt for generating stylized faces. In addition, FCC also constrains the cross-attention maps of latent and text features to preserve source face details in results. The extensive evaluation shows that StyO produces high-quality images on numerous paintings of various styles and outperforms the current state-of-the-art. Code will be released upon acceptance.
arxiv情報
著者 | Bonan Li,Zicheng Zhang,Xuecheng Nie,Congying Han,Yinhan Hu,Tiande Guo |
発行日 | 2023-03-07 04:01:11+00:00 |
arxivサイト | arxiv_id(pdf) |