DiffFaceSketch: High-Fidelity Face Image Synthesis with Sketch-Guided Latent Diffusion Model

要約

モノクロ スケッチから顔画像を合成することは、画像から画像への変換の分野で最も基本的なタスクの 1 つです。
しかし、(1)~形状や色などの高次元の顔の特徴をモデルに学習させること、(2)~入力スケッチの特徴を考慮することは依然として困難です。
既存の方法では、スケッチを間接入力 (または補助入力) としてモデルをガイドするために使用することが多く、その結果、スケッチ フィーチャが失われたり、ジオメトリ情報が変更されたりします。
このホワイト ペーパーでは、ペアのスケッチ面データセットでトレーニングされた LDM ベースのネットワーク アーキテクトである、Sketch-Guided Latent Diffusion Model (SGLDM) を紹介します。
マルチオートエンコーダー (AE) を適用して、顔のさまざまな領域からのさまざまな入力スケッチをピクセル空間から潜在空間の特徴マップにエンコードします。これにより、ジオメトリを維持しながらスケッチ入力の次元を削減できます。
ローカル顔詳細の関連情報。
画像からエッジ マップを抽出する既存の方法に基づいて、スケッチ面のペア データセットを構築します。
次に、確率的領域抽象化 (SRA) を導入します。これは、データセットを拡張して SGLDM の堅牢性を向上させ、任意の抽象化でスケッチ入力を処理するためのアプローチです。
評価研究は、SGLDM が、さまざまな抽象化レベルのさまざまなスケッチから、さまざまな表情、顔のアクセサリー、ヘアスタイルを備えた高品質の顔画像を合成できることを示しています。

要約(オリジナル)

Synthesizing face images from monochrome sketches is one of the most fundamental tasks in the field of image-to-image translation. However, it is still challenging to (1)~make models learn the high-dimensional face features such as geometry and color, and (2)~take into account the characteristics of input sketches. Existing methods often use sketches as indirect inputs (or as auxiliary inputs) to guide the models, resulting in the loss of sketch features or the alteration of geometry information. In this paper, we introduce a Sketch-Guided Latent Diffusion Model (SGLDM), an LDM-based network architect trained on the paired sketch-face dataset. We apply a Multi-Auto-Encoder (AE) to encode the different input sketches from different regions of a face from pixel space to a feature map in latent space, which enables us to reduce the dimension of the sketch input while preserving the geometry-related information of local face details. We build a sketch-face paired dataset based on the existing method that extracts the edge map from an image. We then introduce a Stochastic Region Abstraction (SRA), an approach to augment our dataset to improve the robustness of SGLDM to handle sketch input with arbitrary abstraction. The evaluation study shows that SGLDM can synthesize high-quality face images with different expressions, facial accessories, and hairstyles from various sketches with different abstraction levels.

arxiv情報

著者 Yichen Peng,Chunqi Zhao,Haoran Xie,Tsukasa Fukusato,Kazunori Miyata
発行日 2023-02-14 08:51:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM パーマリンク