Re-assessing ImageNet: How aligned is its single-label assumption with its multi-label nature?


コンピューター ビジョンに影響力のあるデータセットである ImageNet は、従来、単一ラベル分類を使用して評価されてきました。これは、画像が単一の概念またはラベルで適切に記述できることを前提としています。
ただし、このアプローチでは、ImageNet で利用可能な画像内の複雑なセマンティクスを完全には捕捉できない可能性があり、これらの複雑さを効果的に学習するモデルの開発を妨げる可能性があります。
この調査では、一般的な単一ラベル ベンチマーク アプローチを批判的に検証し、ImageNet のマルチラベル ベンチマークへの移行を提唱しています。
この変化により、ディープ ニューラル ネットワーク (DNN) モデルの機能をより包括的に評価できるようになります。
私たちは、ImageNet とその亜種の 1 つである ImageNetV2 上で事前トレーニングされた最先端の DNN の有効性を分析します。
文献の研究では、ImageNetV2 では予期せぬ精度が 11% ~ 14% 低下したと報告されています。
この特性を考慮すると、私たちの実験結果は、ImageNetV2 の有効性が大幅に低下しないことを証明しています。
さらに、ImageNet の事前トレーニング済みモデルは、単一ラベルの仮定の下でトレーニングされたにもかかわらず、データセットのマルチラベルの性質を捕捉する際にある程度の機能を示すことを認めます。
私たちの調査結果は、ベンチマーク中に ImageNet データセットのマルチラベルの性質を考慮することの重要性を強調しています。
そうしないと、DNN の有効性に関して誤った結論が導き出され、これらのモデルの信頼性と堅牢性に関連する他の重大な課題への対処から研究努力がそらされる可能性があります。


ImageNet, an influential dataset in computer vision, is traditionally evaluated using single-label classification, which assumes that an image can be adequately described by a single concept or label. However, this approach may not fully capture the complex semantics within the images available in ImageNet, potentially hindering the development of models that effectively learn these intricacies. This study critically examines the prevalent single-label benchmarking approach and advocates for a shift to multi-label benchmarking for ImageNet. This shift would enable a more comprehensive assessment of the capabilities of deep neural network (DNN) models. We analyze the effectiveness of pre-trained state-of-the-art DNNs on ImageNet and one of its variants, ImageNetV2. Studies in the literature have reported unexpected accuracy drops of 11% to 14% on ImageNetV2. Our findings show that these reported declines are largely attributable to a characteristic of the dataset that has not received sufficient attention — the proportion of images with multiple labels. Taking this characteristic into account, the results of our experiments provide evidence that there is no substantial degradation in effectiveness on ImageNetV2. Furthermore, we acknowledge that ImageNet pre-trained models exhibit some capability at capturing the multi-label nature of the dataset even though they were trained under the single-label assumption. Consequently, we propose a new evaluation approach to augment existing approaches that assess this capability. Our findings highlight the importance of considering the multi-label nature of the ImageNet dataset during benchmarking. Failing to do so could lead to incorrect conclusions regarding the effectiveness of DNNs and divert research efforts from addressing other substantial challenges related to the reliability and robustness of these models.


著者 Esla Timothy Anzaku,Seyed Amir Mousavi,Arnout Van Messem,Wesley De Neve
発行日 2024-12-24 12:55:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク