Attribute Based Interpretable Evaluation Metrics for Generative Models

要約

トレーニング データセットが犬と猫の 1:1 の比率で構成されている場合、1:1 の犬と猫を生成する生成モデルは、3:1 の犬と猫を含む別のモデルよりもトレーニング種の分布によく似ています。
既存の指標を使用してこの現象を捉えることはできるでしょうか?
残念ながら、これらの指標は「多様性」を超えた解釈可能性を提供しないため、それはできません。
これに関連して、次のように、属性の強度の分布に関して、トレーニングセットから生成された画像のセットの乖離を測定する新しい評価プロトコルを提案します。
単一属性発散 (SaD) は、単一属性の PDF に関する発散を測定します。
ペア属性発散 (PaD) は、一対の属性の結合 PDF に関する発散を測定します。
これらは、モデルがどの属性に苦戦しているかを示します。
画像の属性強度を測定するために、異種の初期点を持つ画像ベクトルとテキスト ベクトル間のコサイン類似性を測定する Heterogeneous CLIPScore (HCS) を提案します。
SaD と PaD により、既存の生成モデルについて以下のことが明らかになります。
ProjectedGAN は、既存のメトリクスと同等のスコアを持っているにもかかわらず、ひげを生やした赤ちゃんなどのありえない属性関係を生成します。
拡散モデルは、データセット内の多様な色をキャプチャするのに苦労します。
潜在拡散モデルのサンプリング タイムステップが大きくなると、イヤリングやネックレスなどのより小さなオブジェクトが生成されます。
Stable Diffusion v1.5 は、v2.1 よりも属性をより適切にキャプチャします。
私たちのメトリクスは、生成モデルの説明可能な評価の基礎を築きます。

要約(オリジナル)

When the training dataset comprises a 1:1 proportion of dogs to cats, a generative model that produces 1:1 dogs and cats better resembles the training species distribution than another model with 3:1 dogs and cats. Can we capture this phenomenon using existing metrics? Unfortunately, we cannot, because these metrics do not provide any interpretability beyond ‘diversity’. In this context, we propose a new evaluation protocol that measures the divergence of a set of generated images from the training set regarding the distribution of attribute strengths as follows. Single-attribute Divergence (SaD) measures the divergence regarding PDFs of a single attribute. Paired-attribute Divergence (PaD) measures the divergence regarding joint PDFs of a pair of attributes. They provide which attributes the models struggle. For measuring the attribute strengths of an image, we propose Heterogeneous CLIPScore (HCS) which measures the cosine similarity between image and text vectors with heterogeneous initial points. With SaD and PaD, we reveal the following about existing generative models. ProjectedGAN generates implausible attribute relationships such as a baby with a beard even though it has competitive scores of existing metrics. Diffusion models struggle to capture diverse colors in the datasets. The larger sampling timesteps of latent diffusion model generate the more minor objects including earrings and necklaces. Stable Diffusion v1.5 better captures the attributes than v2.1. Our metrics lay a foundation for explainable evaluations of generative models.

arxiv情報

著者 Dongkyun Kim,Mingi Kwon,Youngjung Uh
発行日 2024-07-17 14:13:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク