要約
深層学習モデルにはバイアスの問題があることが知られており、研究者はこの問題に対処する方法を模索してきました。
ただし、これらの方法のほとんどはバイアスに関する事前知識を必要とし、必ずしも実用的であるとは限りません。
このペーパーでは、バイアスに関する事前情報を持たない、より実用的な設定に焦点を当てます。
一般に、この設定では、モデルがバイアスのある予測を生成する原因となるバイアスが調整されたサンプルが多数存在し、バイアスに適合しないバイアスと競合するサンプルが少数存在します。
トレーニング データが限られている場合、バイアス調整されたサンプルのモデル予測への影響がさらに強くなる可能性があり、そのような場合には既存のバイアス除去技術が深刻な影響を受けることが実験的に証明されています。
この論文では、小規模なデータセット領域における未知のバイアスの影響を検証し、この問題を軽減するための新しいアプローチを紹介します。
提案されたアプローチは、バイアスの影響を軽減するために使用できるハイブリッド サンプルの合成を通じて、限られたデータ設定でバイアスに矛盾するサンプルの発生が極めて低いという問題に直接対処します。
私たちはいくつかのベンチマーク データセットに対して広範な実験を実行し、限られたデータの存在下での未知のバイアスに対処する際の提案されたアプローチの有効性を実験的に実証します。
具体的には、破損した CIFAR-10 タイプ 1 データセットの 10% のみがバイアス付きで利用可能な場合、私たちのアプローチはバニラ、LfF、LDD、および DebiAN のバイアス除去手法よりも絶対マージン 10.39%、9.08%、8.07%、および 9.67% 優れています。
-矛盾するサンプル比は 0.05。
要約(オリジナル)
Deep learning models are known to suffer from the problem of bias, and researchers have been exploring methods to address this issue. However, most of these methods require prior knowledge of the bias and are not always practical. In this paper, we focus on a more practical setting with no prior information about the bias. Generally, in this setting, there are a large number of bias-aligned samples that cause the model to produce biased predictions and a few bias-conflicting samples that do not conform to the bias. If the training data is limited, the influence of the bias-aligned samples may become even stronger on the model predictions, and we experimentally demonstrate that existing debiasing techniques suffer severely in such cases. In this paper, we examine the effects of unknown bias in small dataset regimes and present a novel approach to mitigate this issue. The proposed approach directly addresses the issue of the extremely low occurrence of bias-conflicting samples in limited data settings through the synthesis of hybrid samples that can be used to reduce the effect of bias. We perform extensive experiments on several benchmark datasets and experimentally demonstrate the effectiveness of our proposed approach in addressing any unknown bias in the presence of limited data. Specifically, our approach outperforms the vanilla, LfF, LDD, and DebiAN debiasing methods by absolute margins of 10.39%, 9.08%, 8.07%, and 9.67% when only 10% of the Corrupted CIFAR-10 Type 1 dataset is available with a bias-conflicting sample ratio of 0.05.
arxiv情報
著者 | Piyush Arora,Pratik Mazumder |
発行日 | 2023-12-13 17:04:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google