Corner Cases: How Size and Position of Objects Challenge ImageNet-Trained Models

要約

画像の背景は、異なるデータポイント間の偽の相関に貢献する上で大きな役割を果たします。
画像をキャプチャする人間の審美的な好みにより、データセットは、さまざまなクラスの偏見(特定のフレーム内のオブジェクトの位置)とサイズ(画像比の領域と画像比)を示すことができます。
この論文では、これらのバイアスが、バックグラウンドの偽の特徴に依存しているモデルが予測を行うことに影響を与える可能性があることを示しています。
調査結果をよりよく説明するために、Imagenet1k、Hard Spurious-Imagenetから派生した合成データセットを提案します。これには、さまざまな背景、オブジェクトの位置、オブジェクトサイズの画像が含まれています。
さまざまな前提条件のモデルでデータセットを評価することにより、ほとんどのモデルは、画像比が小さく、オブジェクトが画像の中心から遠く離れている場合、背景の偽の特徴に大きく依存していることがわかります。
さらに、有害な偽りの特徴を軽減することを目的とした現在の方法は、これらの要因を考慮に入れないため、画像変更のコア機能のサイズと位置が最悪のグループの精度でかなりのパフォーマンスの向上を達成できないことを示しています。

要約(オリジナル)

Backgrounds in images play a major role in contributing to spurious correlations among different data points. Owing to aesthetic preferences of humans capturing the images, datasets can exhibit positional (location of the object within a given frame) and size (region-of-interest to image ratio) biases for different classes. In this paper, we show that these biases can impact how much a model relies on spurious features in the background to make its predictions. To better illustrate our findings, we propose a synthetic dataset derived from ImageNet1k, Hard-Spurious-ImageNet, which contains images with various backgrounds, object positions, and object sizes. By evaluating the dataset on different pretrained models, we find that most models rely heavily on spurious features in the background when the region-of-interest (ROI) to image ratio is small and the object is far from the center of the image. Moreover, we also show that current methods that aim to mitigate harmful spurious features, do not take into account these factors, hence fail to achieve considerable performance gains for worst-group accuracies when the size and location of core features in an image change.

arxiv情報

著者 Mishal Fatima,Steffen Jung,Margret Keuper
発行日 2025-05-06 14:27:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク