要約
以前の研究では、Visual Recognition データセットは、カテゴリ (\eg Programmers) 内の機密グループ (\eg Female) を過小評価することが多いことが示されています。
このデータセット バイアスは、クラス ラベルと、年齢、性別、人種などの機密属性との間の疑似相関を学習するモデルにつながる可能性があります。
この問題に対処する最近の方法のほとんどは、大幅なアーキテクチャの変更または高価なハイパーパラメーターの調整を必要とします。
あるいは、クラスの不均衡に関する文献からのデータ リサンプリング ベースライン (例: アンダーサンプリング、アップウェイト) は、多くの場合 1 行のコードで実装でき、ハイパーパラメーターを持たないことが多く、安価で効率的なソリューションを提供します。
ただし、これらのベースラインの一部が、最近のバイアス軽減ベンチマークから欠落していることがわかりました。
この論文では、これらの単純な方法が、多くのデータセットに対する最先端のバイアス緩和方法と著しく競合することを示しています。
さらに、新しいクラス条件付きサンプリング法を導入することでこれらの方法を改善します: Bias Mimicking。
ベースライン データセットの再サンプリング方法がうまく機能しない場合、Bias Mimicking はパフォーマンス ギャップを効果的に埋め、過小評価されたサブグループの合計平均精度を以前の作業と比較して $3\%$ 以上改善します。
要約(オリジナル)
Prior work has shown that Visual Recognition datasets frequently under-represent sensitive groups (\eg Female) within a category (\eg Programmers). This dataset bias can lead to models that learn spurious correlations between class labels and sensitive attributes such as age, gender, or race. Most of the recent methods that address this problem require significant architectural changes or expensive hyper-parameter tuning. Alternatively, data re-sampling baselines from the class imbalance literature (\eg Undersampling, Upweighting), which can often be implemented in a single line of code and often have no hyperparameters, offer a cheaper and more efficient solution. However, we found that some of these baselines were missing from recent bias mitigation benchmarks. In this paper, we show that these simple methods are strikingly competitive with state-of-the-art bias mitigation methods on many datasets. Furthermore, we improve these methods by introducing a new class conditioned sampling method: Bias Mimicking. In cases where the baseline dataset re-sampling methods do not perform well, Bias Mimicking effectively bridges the performance gap and improves the total averaged accuracy of under-represented subgroups by over $3\%$ compared to prior work.
arxiv情報
著者 | Maan Qraitem,Kate Saenko,Bryan A. Plummer |
発行日 | 2022-09-30 17:33:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google