Spawrious: A Benchmark for Fine Control of Spurious Correlation Biases

要約

擬似相関 (SC) の問題は、分類器がトレーニング データ内のラベルと偶然相関する非予測特徴に依存する場合に発生します。
たとえば、分類器は犬の画像の背景に基づいて犬の品種を誤って分類する可能性があります。
これは、背景がトレーニング データ内の他の品種と相関している場合に発生し、テスト時の誤分類につながります。
以前の SC ベンチマーク データセットには、過飽和、または 1 対 1 (O2O) SC のみが含まれているが、偽の属性とクラスのグループ間で発生する多対多 (M2M) SC が含まれていないなど、さまざまな問題があります。
このペーパーでは、クラスと背景間の偽の相関関係を含む画像分類ベンチマーク スイートである \benchmark-\{O2O, M2M\}-\{Easy, Medium, Hard\} を紹介します。
このデータセットを作成するには、テキストから画像へのモデルを使用して写真のようにリアルな画像を生成し、画像キャプション モデルを使用して不適切な画像を除外します。
結果として得られるデータセットは高品質で、約 152,000 個の画像が含まれています。
私たちの実験結果は、最先端のグループ ロバストネス手法がベンチマークで苦戦していることを示しています。特にハード スプリットでは、ImageNet で事前トレーニングされた ResNet50 を使用した最もハードなスプリットで $70\%$ を超える精度を達成できるメソッドはどれもありません。
モデルの誤分類を調べることで、偽の背景への依存を検出し、データセットが重大な課題を提供していることを示しています。

要約(オリジナル)

The problem of spurious correlations (SCs) arises when a classifier relies on non-predictive features that happen to be correlated with the labels in the training data. For example, a classifier may misclassify dog breeds based on the background of dog images. This happens when the backgrounds are correlated with other breeds in the training data, leading to misclassifications during test time. Previous SC benchmark datasets suffer from varying issues, e.g., over-saturation or only containing one-to-one (O2O) SCs, but no many-to-many (M2M) SCs arising between groups of spurious attributes and classes. In this paper, we present \benchmark-\{O2O, M2M\}-\{Easy, Medium, Hard\}, an image classification benchmark suite containing spurious correlations between classes and backgrounds. To create this dataset, we employ a text-to-image model to generate photo-realistic images and an image captioning model to filter out unsuitable ones. The resulting dataset is of high quality and contains approximately 152k images. Our experimental results demonstrate that state-of-the-art group robustness methods struggle with \benchmark, most notably on the Hard-splits with none of them getting over $70\%$ accuracy on the hardest split using a ResNet50 pretrained on ImageNet. By examining model misclassifications, we detect reliances on spurious backgrounds, demonstrating that our dataset provides a significant challenge.

arxiv情報

著者 Aengus Lynch,Gbètondji J-S Dovonon,Jean Kaddour,Ricardo Silva
発行日 2023-06-12 14:04:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク