Decompose-and-Compose: A Compositional Approach to Mitigating Spurious Correlation

要約

標準的な経験的リスク最小化(ERM)学習は、分布内データに対する画像分類には有効であることが証明されているが、分布外サンプルに対してはうまく機能しない。画像分類における分布シフトの主な原因の1つは、画像の構成的な性質です。具体的には、ラベルを決定する主な対象物や構成要素に加えて、通常、他の画像構成要素も存在し、これが訓練環境とテスト環境の間で入力分布のシフトを引き起こす可能性がある。さらに重要なことは、これらの成分がラベルと偽の相関を持つ可能性があることである。この問題に対処するため、我々は、画像の要素の組み合わせに基づく構成的アプローチにより、相関シフトに対する頑健性を向上させるDecompose-and-Compose(DaC)を提案する。我々の観察によれば、ERMを用いて学習されたモデルは、通常、原因成分か、ラベルと高いスプリアス相関を持つ成分(特に、モデルの信頼度が高いデータポイント)のどちらかに強く注目する。実際、スプリアス相関の量と、原因成分か非原因成分かに基づく分類のしやすさに応じて、モデルは通常、(信頼度が高いサンプルでは)これらのどちらかに多く注目する。そこでまず、ERMで学習したモデルのクラス活性化マップを用いて、画像の原因成分の同定を試みる。その後、画像を組み合わせ、反事実的なものを含む増強されたデータでモデルを再学習させることで、画像に介入する。その高い解釈可能性とともに、本研究は、グループラベルや学習中の偽特徴に関する情報を必要とせずに、画像に介入することによるグループバランス手法を提案する。本手法は、相関シフトにおけるグループラベルに同程度の監視を加えた従来の手法と比較して、全体的に最悪グループ精度が向上している。

要約(オリジナル)

While standard Empirical Risk Minimization (ERM) training is proven effective for image classification on in-distribution data, it fails to perform well on out-of-distribution samples. One of the main sources of distribution shift for image classification is the compositional nature of images. Specifically, in addition to the main object or component(s) determining the label, some other image components usually exist, which may lead to the shift of input distribution between train and test environments. More importantly, these components may have spurious correlations with the label. To address this issue, we propose Decompose-and-Compose (DaC), which improves robustness to correlation shift by a compositional approach based on combining elements of images. Based on our observations, models trained with ERM usually highly attend to either the causal components or the components having a high spurious correlation with the label (especially in datapoints on which models have a high confidence). In fact, according to the amount of spurious correlation and the easiness of classification based on the causal or non-causal components, the model usually attends to one of these more (on samples with high confidence). Following this, we first try to identify the causal components of images using class activation maps of models trained with ERM. Afterward, we intervene on images by combining them and retraining the model on the augmented data, including the counterfactual ones. Along with its high interpretability, this work proposes a group-balancing method by intervening on images without requiring group labels or information regarding the spurious features during training. The method has an overall better worst group accuracy compared to previous methods with the same amount of supervision on the group labels in correlation shift.

arxiv情報

著者 Fahimeh Hosseini Noohdani,Parsa Hosseini,Aryan Yazdan Parast,Hamidreza Yaghoubi Araghi,Mahdieh Soleymani Baghshah
発行日 2024-03-02 14:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク