要約
テキストから画像への拡散モデルは、前例のない画像生成機能により広く普及しています。
特に、人間の顔を合成および変更できる機能により、生成された顔画像をトレーニング データの拡張とモデルのパフォーマンス評価の両方で使用する研究が促進されました。
この論文では、顔生成のコンテキストにおける生成モデルの有効性と欠点を研究します。
埋め込みベースのメトリクスやユーザー調査など、定性的および定量的な尺度を組み合わせて利用し、一連の社会的属性を条件として生成された顔の特徴を監査するフレームワークを提示します。
私たちは、最先端のテキストから画像への拡散モデルを通じて生成された顔にフレームワークを適用しました。
私たちは、テキスト プロンプトへの忠実さ、人口統計上の格差、分布の変化など、顔画像生成のいくつかの制限を特定しました。
さらに、トレーニング データの選択が生成モデルのパフォーマンスにどのように寄与するかについての洞察を提供する分析モデルを紹介します。
要約(オリジナル)
Text-to-image diffusion models have achieved widespread popularity due to their unprecedented image generation capability. In particular, their ability to synthesize and modify human faces has spurred research into using generated face images in both training data augmentation and model performance assessments. In this paper, we study the efficacy and shortcomings of generative models in the context of face generation. Utilizing a combination of qualitative and quantitative measures, including embedding-based metrics and user studies, we present a framework to audit the characteristics of generated faces conditioned on a set of social attributes. We applied our framework on faces generated through state-of-the-art text-to-image diffusion models. We identify several limitations of face image generation that include faithfulness to the text prompt, demographic disparities, and distributional shifts. Furthermore, we present an analytical model that provides insights into how training data selection contributes to the performance of generative models.
arxiv情報
著者 | Harrison Rosenberg,Shimaa Ahmed,Guruprasad V Ramesh,Ramya Korlakai Vinayak,Kassem Fawaz |
発行日 | 2023-12-21 15:26:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google