Looking at Model Debiasing through the Lens of Anomaly Detection

要約

ディープ ニューラル ネットワークがデータの偏りの影響を受けやすいことは広く認識されています。
これは、これらのモデルがトレーニング中にデータとラベル間の誤った相関関係を学習する可能性が高く、その結果、汎化能力が制限され、パフォーマンスが低下することを意味します。
これに関連して、バイアス情報の知識を活用するかどうかにかかわらず、そのような望ましくない相関に対するモデルの依存性を軽減することを目的としたモデルのバイアス除去アプローチを考案できます。
この研究では、後者のより現実的なシナリオに焦点を当て、バイアス軽減において説得力のあるパフォーマンスを得るには、バイアスが競合するサンプルとバイアスが調整されたサンプルを正確に予測することの重要性を示します。
この観点から、我々は、異常検出に基づく新しいバイアス識別方法を導入し、分布外の観点からモデルのバイアスの問題を考えることを提案します。
データの大部分が偏っている場合、偏りに矛盾するサンプルは、偏りのあるモデルの特徴空間内の偏りに合わせた分布に関して外れ値と見なすことができるため、異常検出方法でそれらを正確に検出できると主張します。
提案されたバイアス識別アプローチと、バイアスに矛盾するデータのアップサンプリングおよび拡張を 2 段階の戦略で組み合わせることで、合成および実際のベンチマーク データセットで最先端のパフォーマンスを実現します。
最終的に、私たちが提案したアプローチは、正確なバイアス識別手順が定義されている場合、データバイアスの問題は必ずしも複雑なバイアス除去方法を必要としないことを示しています。

要約(オリジナル)

It is widely recognized that deep neural networks are sensitive to bias in the data. This means that during training these models are likely to learn spurious correlations between data and labels, resulting in limited generalization abilities and low performance. In this context, model debiasing approaches can be devised aiming at reducing the model’s dependency on such unwanted correlations, either leveraging the knowledge of bias information or not. In this work, we focus on the latter and more realistic scenario, showing the importance of accurately predicting the bias-conflicting and bias-aligned samples to obtain compelling performance in bias mitigation. On this ground, we propose to conceive the problem of model bias from an out-of-distribution perspective, introducing a new bias identification method based on anomaly detection. We claim that when data is mostly biased, bias-conflicting samples can be regarded as outliers with respect to the bias-aligned distribution in the feature space of a biased model, thus allowing for precisely detecting them with an anomaly detection method. Coupling the proposed bias identification approach with bias-conflicting data upsampling and augmentation in a two-step strategy, we reach state-of-the-art performance on synthetic and real benchmark datasets. Ultimately, our proposed approach shows that the data bias issue does not necessarily require complex debiasing methods, given that an accurate bias identification procedure is defined.

arxiv情報

著者 Vito Paolo Pastore,Massimiliano Ciranni,Davide Marinelli,Francesca Odone,Vittorio Murino
発行日 2024-07-24 17:30:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, I.4 パーマリンク