要約
最近の顔生成方法は、低解像度の画像やスケッチのように、与えられた輪郭条件に基づいて顔を合成しようとしています。
ただし、アイデンティティのあいまいさの問題は未解決のままです。これは通常、輪郭が曖昧すぎて信頼できるアイデンティティ情報を提供できない場合に発生します (たとえば、解像度が非常に低い場合)。
したがって、画像復元の実行可能なソリューションは無限にある可能性があります。
この作業では、輪郭とアイデンティティを指定する追加の画像を入力として取る新しいフレームワークを提案します。輪郭は、低解像度画像、スケッチ、セマンティックラベルマップなど、さまざまなモダリティにすることができます。
具体的には、アイデンティティエンコーダがアイデンティティ関連の特徴を抽出し、メインエンコーダが大まかな輪郭情報を取得し、さらにすべての情報を融合する、新しいデュアルエンコーダアーキテクチャを提案します。
エンコーダ出力は、満足のいく結果が得られるまで、事前トレーニング済みの StyleGAN ジェネレーターに繰り返し供給されます。
私たちの知る限り、これはマルチモーダル輪郭画像を条件としたアイデンティティガイド付き顔生成を実現した最初の作品です。
さらに、私たちの方法は、1024$\times$1024 の解像度でフォトリアリスティックな結果を生成できます。
要約(オリジナル)
Recent face generation methods have tried to synthesize faces based on the given contour condition, like a low-resolution image or sketch. However, the problem of identity ambiguity remains unsolved, which usually occurs when the contour is too vague to provide reliable identity information (e.g., when its resolution is extremely low). Thus feasible solutions of image restoration could be infinite. In this work, we propose a novel framework that takes the contour and an extra image specifying the identity as the inputs, where the contour can be of various modalities, including the low-resolution image, sketch, and semantic label map. Concretely, we propose a novel dual-encoder architecture, in which an identity encoder extracts the identity-related feature, accompanied by a main encoder to obtain the rough contour information and further fuse all the information together. The encoder output is iteratively fed into a pre-trained StyleGAN generator until getting a satisfying result. To the best of our knowledge, this is the first work that achieves identity-guided face generation conditioned on multi-modal contour images. Moreover, our method can produce photo-realistic results with 1024$\times$1024 resolution.
arxiv情報
著者 | Qingyan Bai,Weihao Xia,Fei Yin,Yujiu Yang |
発行日 | 2022-08-02 14:20:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google