Conditioning Diffusion Models via Attributes and Semantic Masks for Face Generation

要約

深層生成モデルは、リアルな顔画像の生成において素晴らしい結果を示しています。
GAN は、セマンティック マスクに基づいて条件付けされた場合、高品質で忠実度の高い画像を生成することに成功しましたが、出力を多様化する機能がまだ不足しています。
拡散モデルはこの問題を部分的に解決し、同じ条件で多様なサンプルを生成することができます。
この論文では、属性とセマンティックマスクの両方を利用して高品質で制御可能な顔画像を生成するクロスアテンションによる拡散モデルのマルチコンディショニングアプローチを提案します。
また、知覚に焦点を当てた損失重み付けをピクセル空間ではなく潜在空間に適用した場合の影響も研究しました。
私たちの方法は、複数の特徴セットに対する条件付けを導入することで以前のアプローチを拡張し、生成された顔画像に対するよりきめ細かい制御を保証します。
CelebA-HQ データセットに対するアプローチを評価し、複数の属性と意味領域に対するきめ細かい制御を可能にしながら、現実的で多様なサンプルを生成できることを示します。
さらに、アブレーション研究を実行して、生成された画像の品質と多様性に対するさまざまなコンディショニング戦略の影響を評価します。

要約(オリジナル)

Deep generative models have shown impressive results in generating realistic images of faces. GANs managed to generate high-quality, high-fidelity images when conditioned on semantic masks, but they still lack the ability to diversify their output. Diffusion models partially solve this problem and are able to generate diverse samples given the same condition. In this paper, we propose a multi-conditioning approach for diffusion models via cross-attention exploiting both attributes and semantic masks to generate high-quality and controllable face images. We also studied the impact of applying perceptual-focused loss weighting into the latent space instead of the pixel space. Our method extends the previous approaches by introducing conditioning on more than one set of features, guaranteeing a more fine-grained control over the generated face images. We evaluate our approach on the CelebA-HQ dataset, and we show that it can generate realistic and diverse samples while allowing for fine-grained control over multiple attributes and semantic regions. Additionally, we perform an ablation study to evaluate the impact of different conditioning strategies on the quality and diversity of the generated images.

arxiv情報

著者 Nico Giambi,Giuseppe Lisanti
発行日 2023-08-30 16:24:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク