Better May Not Be Fairer: Can Data Augmentation Mitigate Subgroup Degradation?

要約

ディープ ラーニング モデルが、入力/出力ペア間の正しい関係を学習する代わりに、誤った相関関係を学習するなどの望ましくない動作を示すことは周知の事実です。
以前は、包括的な評価のために現実的なデータセットにアクセスする際の制限により、自然なセマンティック要因を考慮するのではなく、低レベルの機能を組み合わせて偽の相関が予測にどのように影響するかを定量化する堅牢性研究データセットに取り組んでいます。
このギャップを埋めるために、このホワイト ペーパーでは、まず、CIFAR10 と CIFAR100 のテスト セットを各画像の背景色に基づいてサブグループに手動で分割することにより、画像分類タスクで自然な背景色が偽の特徴としてどのように機能するかを調査します。
データセットに CIFAR10-B と CIFAR100-B という名前を付けます。
標準的な CNN は人間レベルの精度を達成しますが、サブグループのパフォーマンスには一貫性がなく、データ拡張 (DA) の後でも現象が残ることがわかりました。
この問題を軽減するために、事前トレーニングされた生成フローによってキャプチャされた分離されたセマンティック表現を活用するセマンティック DA メソッドである FlowAug を提案します。
実験結果は、FlowAug が CIFAR10 および CIFAR100 の他のタイプの DA メソッドよりもサブグループ全体でより一貫した結果を達成することを示しています。
さらに、一般化のパフォーマンスも向上しています。
さらに、偽の相関に対するモデルの堅牢性を研究するための一般的なメトリックを提案します。ここでは、さまざまなクラスにわたる加重標準偏差のマクロ平均をとります。
私たちの指標によると、FlowAug は疑似相関への依存度が低いことを示しています。
この指標はキュレートされたデータセットを調査するために提案されていますが、サブグループまたはサブクラスを持つすべてのデータセットに適用されます。
最後に、スプリアス相関への依存度が低く、分布内テスト セットの一般化が改善されていることは別として、CIFAR10.1 では分布外で優れた結果を示し、CIFAR10-C と CIFAR100-C では競争力のあるパフォーマンスを示しています。

要約(オリジナル)

It is no secret that deep learning models exhibit undesirable behaviors such as learning spurious correlations instead of learning correct relationships between input/output pairs. Prior works on robustness study datasets that mix low-level features to quantify how spurious correlations affect predictions instead of considering natural semantic factors due to limitations in accessing realistic datasets for comprehensive evaluation. To bridge this gap, in this paper we first investigate how natural background colors play a role as spurious features in image classification tasks by manually splitting the test sets of CIFAR10 and CIFAR100 into subgroups based on the background color of each image. We name our datasets CIFAR10-B and CIFAR100-B. We find that while standard CNNs achieve human-level accuracy, the subgroup performances are not consistent, and the phenomenon remains even after data augmentation (DA). To alleviate this issue, we propose FlowAug, a semantic DA method that leverages the decoupled semantic representations captured by a pre-trained generative flow. Experimental results show that FlowAug achieves more consistent results across subgroups than other types of DA methods on CIFAR10 and CIFAR100. Additionally, it shows better generalization performance. Furthermore, we propose a generic metric for studying model robustness to spurious correlations, where we take a macro average on the weighted standard deviations across different classes. Per our metric, FlowAug demonstrates less reliance on spurious correlations. Although this metric is proposed to study our curated datasets, it applies to all datasets that have subgroups or subclasses. Lastly, aside from less dependence on spurious correlations and better generalization on in-distribution test sets, we also show superior out-of-distribution results on CIFAR10.1 and competitive performances on CIFAR10-C and CIFAR100-C.

arxiv情報

著者 Ming-Chang Chiu,Pin-Yu Chen,Xuezhe Ma
発行日 2022-12-16 18:51:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク