Do better ImageNet classifiers assess perceptual similarity better?

要約

画像間の知覚的距離は、事前に学習された深層特徴の空間で測定され、画像の類似性を評価する上で、以前の低レベル、ピクセルベースのメトリックを凌駕しています。AlexNetやVGGのような古くて精度の低いモデルが知覚的類似性を捉える能力はよく知られているが、最新の高精度なモデルについてはあまり研究されていない。本論文では、ImageNet分類器が知覚的類似性に対してどの程度の性能を持つかを評価するための大規模な実証研究を紹介する。まず、ResNets、EfficientNets、Vision Transformersなどの最新のネットワークにおいて、ImageNetの精度と知覚スコアの間に逆相関があること、つまり、良い分類器ほど知覚スコアが悪いことを観察する。次に、深さ、幅、学習ステップ数、重み減衰、ラベル平滑化、ドロップアウトを変化させたときのImageNetの精度とPerceptual Scoreの関係を検証した。精度が高いほどPerceptual Scoreは向上するが、中高精度領域では精度とPerceptual Scoreの間にパレートフロンティアが存在することが分かった。この関係を、歪み不変性、空間周波数感度、代替知覚関数など、妥当性のある多くの仮説を用いてさらに検討した。興味深いことに、我々はImageNet上で5エポック未満しか訓練されていない浅いResNetsとResNetsを発見し、その出現したPerceptual Scoreは、教師あり人間の知覚判断で直接訓練した先行ベストネットワークと一致している。

要約(オリジナル)

Perceptual distances between images, as measured in the space of pre-trained deep features, have outperformed prior low-level, pixel-based metrics on assessing image similarity. While the capabilities of older and less accurate models such as AlexNet and VGG to capture perceptual similarity are well known, modern and more accurate models are less studied. In this paper, we present a large-scale empirical study to assess how well ImageNet classifiers perform on perceptual similarity. First, we observe a inverse correlation between ImageNet accuracy and Perceptual Scores of modern networks such as ResNets, EfficientNets, and Vision Transformers: that is better classifiers achieve worse Perceptual Scores. Then, we examine the ImageNet accuracy/Perceptual Score relationship on varying the depth, width, number of training steps, weight decay, label smoothing, and dropout. Higher accuracy improves Perceptual Score up to a certain point, but we uncover a Pareto frontier between accuracies and Perceptual Score in the mid-to-high accuracy regime. We explore this relationship further using a number of plausible hypotheses such as distortion invariance, spatial frequency sensitivity, and alternative perceptual functions. Interestingly we discover shallow ResNets and ResNets trained for less than 5 epochs only on ImageNet, whose emergent Perceptual Score matches the prior best networks trained directly on supervised human perceptual judgements.

arxiv情報

著者 Manoj Kumar,Neil Houlsby,Nal Kalchbrenner,Ekin D. Cubuk
発行日 2022-09-08 15:15:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク