The Role of ImageNet Classes in Fréchet Inception Distance

要約

データ駆動型生成モデルにおいて、モデルをランク付けするための主要な指標としてFID(Ferthe’echet Inception Distance)がある。しかし、この指標は人間の判断と異なる場合があることが知られている。我々は、この不一致の根本原因を調査し、FIDが生成された画像から何を「見て」いるかを可視化する。その結果、FIDが計算する特徴空間はImageNetの分類に非常に近く、生成画像と実画像の間でTop-$N$分類のヒストグラムを揃えることで、FIDを大幅に削減できることがわかった(実際には結果の品質は改善されないが)。このように、FIDは意図的または偶発的な歪みを生じやすいと結論づけられます。偶発的な歪みの例として、ImageNetで事前学習したFastGANがStyleGAN2と同等のFIDを達成しながら、人間の評価では劣っているケースを紹介します。

要約(オリジナル)

Fr\’echet Inception Distance (FID) is the primary metric for ranking models in data-driven generative modeling. While remarkably successful, the metric is known to sometimes disagree with human judgement. We investigate a root cause of these discrepancies, and visualize what FID ‘looks at’ in generated images. We show that the feature space that FID is (typically) computed in is so close to the ImageNet classifications that aligning the histograms of Top-$N$ classifications between sets of generated and real images can reduce FID substantially — without actually improving the quality of results. Thus we conclude that FID is prone to intentional or accidental distortions. As a practical example of an accidental distortion, we discuss a case where an ImageNet pre-trained FastGAN achieves a FID comparable to StyleGAN2, while being worse in terms of human evaluation

arxiv情報

著者 Tuomas Kynkäänniemi,Tero Karras,Miika Aittala,Timo Aila,Jaakko Lehtinen
発行日 2022-09-07 07:29:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NE, stat.ML パーマリンク