要約
背景は画像分類の重要な信号ですが、これに過度に依存すると、テスト時に前景と背景の間の誤った相関関係が壊れたときに、誤った予測につながる可能性があります。
これらの相関関係に偏りがないデータセットでのトレーニングは、より堅牢なモデルにつながります。
この論文では、Diffusion Dreamed Distribution Shifts (D3S) と呼ばれるそのようなデータセットを提案します。
D3S は、テキスト プロンプトを使用して StableDiffusion によって生成された合成画像と、前景のサンプル画像を背景のテンプレート画像に貼り付けることによって得られる画像ガイドで構成されます。
このスケーラブルなアプローチを使用して、10 の多様なバックグラウンドで 1000 の ImageNet クラスすべてからオブジェクトの 120K の画像を生成します。
拡散モデルの信じられないほどの写実性により、私たちの画像は以前の合成データセットよりもはるかに自然な画像に近くなっています。
D3S には、17,000 を超える画像の検証セットが含まれており、そのラベルは MTurk 研究で人間によって検証されています。
検証セットを使用して、いくつかの一般的な DNN 画像分類子を評価し、モデルの分類パフォーマンスが一般的に背景の多様な画像に影響を与えることを発見しました。
次に、D3S のフォアグラウンド ラベルとバックグラウンド ラベルを活用して、フォアグラウンド (バックグラウンド) フィーチャとバックグラウンド (フォアグラウンド) ラベルの間の相互情報にペナルティを課すことにより、バックグラウンド (フォアグラウンド) の変化に対して不変なフォアグラウンド (背景) 表現を学習します。
前景 (背景) から前景 (背景) を予測するためにこれらの特徴でトレーニングされた線形分類器は 82.9% (93.8%) の高い精度を持っていますが、背景と前景からこれらのラベルを予測する分類器はそれぞれ 2.4% と 45.6% のはるかに低い精度を持っています。
.
これは、前景と背景の特徴がうまく絡み合っていることを示唆しています。
さらに、これらの表現の有効性を、強い疑似相関を持つタスクで分類子をトレーニングすることによってテストします。
要約(オリジナル)
Though the background is an important signal for image classification, over reliance on it can lead to incorrect predictions when spurious correlations between foreground and background are broken at test time. Training on a dataset where these correlations are unbiased would lead to more robust models. In this paper, we propose such a dataset called Diffusion Dreamed Distribution Shifts (D3S). D3S consists of synthetic images generated through StableDiffusion using text prompts and image guides obtained by pasting a sample foreground image onto a background template image. Using this scalable approach we generate 120K images of objects from all 1000 ImageNet classes in 10 diverse backgrounds. Due to the incredible photorealism of the diffusion model, our images are much closer to natural images than previous synthetic datasets. D3S contains a validation set of more than 17K images whose labels are human-verified in an MTurk study. Using the validation set, we evaluate several popular DNN image classifiers and find that the classification performance of models generally suffers on our background diverse images. Next, we leverage the foreground & background labels in D3S to learn a foreground (background) representation that is invariant to changes in background (foreground) by penalizing the mutual information between the foreground (background) features and the background (foreground) labels. Linear classifiers trained on these features to predict foreground (background) from foreground (background) have high accuracies at 82.9% (93.8%), while classifiers that predict these labels from background and foreground have a much lower accuracy of 2.4% and 45.6% respectively. This suggests that our foreground and background features are well disentangled. We further test the efficacy of these representations by training classifiers on a task with strong spurious correlations.
arxiv情報
| 著者 | Priyatham Kattakinda,Alexander Levine,Soheil Feizi | 
| 発行日 | 2022-11-18 17:07:43+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
