A Study on the Evaluation of Generative Models

要約

近年、生成的敵対的ネットワークや拡散モデルなど、尤度値を返さない暗黙的な生成モデルが普及しています。
これらのモデルが驚くべき結果を示したことは事実ですが、それらのパフォーマンスを評価することは困難です。
この問題は、研究を前進させ、ランダムノイズからの有意義な利益を特定するために非常に重要です。
現在、インセプションスコア(IS)やフレシェインセプション距離(FID)などのヒューリスティックメトリックが最も一般的な評価メトリックですが、それらが測定するものは完全には明確ではありません。
さらに、彼らのスコアが実際にどれほど意味があるかについての質問があります。
この作業では、比較のために古典的なメトリックを推定できる高品質の合成データセットを生成することにより、生成モデルの評価メトリックを研究します。
私たちの研究によると、FIDとISはいくつかのf発散と相関していますが、近接モデルのランク付けは大幅に異なる可能性があり、微妙な比較に使用すると問題が発生します。
さらに、この実験設定を使用して、どの評価指標が確率的指標と最もよく相関するかを調査しました。
最後に、FIDなどのメトリックに使用される基本機能を調べます。

要約(オリジナル)

Implicit generative models, which do not return likelihood values, such as generative adversarial networks and diffusion models, have become prevalent in recent years. While it is true that these models have shown remarkable results, evaluating their performance is challenging. This issue is of vital importance to push research forward and identify meaningful gains from random noise. Currently, heuristic metrics such as the Inception score (IS) and Frechet Inception Distance (FID) are the most common evaluation metrics, but what they measure is not entirely clear. Additionally, there are questions regarding how meaningful their score actually is. In this work, we study the evaluation metrics of generative models by generating a high-quality synthetic dataset on which we can estimate classical metrics for comparison. Our study shows that while FID and IS do correlate to several f-divergences, their ranking of close models can vary considerably making them problematic when used for fain-grained comparison. We further used this experimental setting to study which evaluation metric best correlates with our probabilistic metrics. Lastly, we look into the base features used for metrics such as FID.

arxiv情報

著者 Eyal Betzalel,Coby Penso,Aviv Navon,Ethan Fetaya
発行日 2022-06-22 09:27:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク