Revisiting the Importance of Amplifying Bias for Debiasing

要約

画像分類では、「デバイアス」は、データセット バイアス (データ サンプルの周辺属性とターゲット クラスとの間の強い相関関係) の影響を受けにくくなるように分類器をトレーニングすることを目的としています。
たとえば、データセット内のカエルのクラスが主に沼地の背景を持つカエルの画像 (つまり、バイアスが整列したサンプル) で構成されている場合でも、偏りのない分類器はビーチでカエルを正しく分類できるはずです (つまり、バイアスが競合するサンプル)。
)。
最近のバイアス緩和アプローチでは、通常、バイアス緩和のためにバイアス モデル $f_B$ とバイアス緩和モデル $f_D$ の 2 つのコンポーネントが使用されます。
$f_B$ は、バイアスに合わせたサンプル (つまり、バイアスに過適合) に焦点を当てるようにトレーニングされますが、$f_D$ は主に、$f_B$ が学習に失敗したサンプルに集中することにより、バイアスに矛盾するサンプルでトレーニングされ、$f_D$ が
データセット バイアスの影響を受けにくくなります。
最先端のバイアス緩和技術は $f_D$ のトレーニングを改善することを目的としていますが、これまで見落とされていたコンポーネントである $f_B$ のトレーニングに焦点を当てています。
私たちの経験的分析は、$f_B$ のトレーニング セットからバイアス競合サンプルを削除することが、$f_D$ のバイアス緩和パフォーマンスを改善するために重要であることを明らかにしています。
これは、これらのサンプルにはバイアス属性が含まれていないため、バイアス競合サンプルが $f_B$ のバイアスを増幅するためのノイズの多いサンプルとして機能するためです。
この目的のために、バイアス競合サンプルを削除して、$f_B$ をトレーニングするためのバイアス増幅データセットを構築する、シンプルでありながら効果的なデータ サンプル選択方法を提案します。
私たちのデータサンプル選択方法は、既存の再重み付けベースのバイアス緩和アプローチに直接適用でき、一貫したパフォーマンスの向上を実現し、合成データセットと現実世界のデータセットの両方で最先端のパフォーマンスを実現します。

要約(オリジナル)

In image classification, ‘debiasing’ aims to train a classifier to be less susceptible to dataset bias, the strong correlation between peripheral attributes of data samples and a target class. For example, even if the frog class in the dataset mainly consists of frog images with a swamp background (i.e., bias-aligned samples), a debiased classifier should be able to correctly classify a frog at a beach (i.e., bias-conflicting samples). Recent debiasing approaches commonly use two components for debiasing, a biased model $f_B$ and a debiased model $f_D$. $f_B$ is trained to focus on bias-aligned samples (i.e., overfitted to the bias) while $f_D$ is mainly trained with bias-conflicting samples by concentrating on samples which $f_B$ fails to learn, leading $f_D$ to be less susceptible to the dataset bias. While the state-of-the-art debiasing techniques have aimed to better train $f_D$, we focus on training $f_B$, an overlooked component until now. Our empirical analysis reveals that removing the bias-conflicting samples from the training set for $f_B$ is important for improving the debiasing performance of $f_D$. This is due to the fact that the bias-conflicting samples work as noisy samples for amplifying the bias for $f_B$ since those samples do not include the bias attribute. To this end, we propose a simple yet effective data sample selection method which removes the bias-conflicting samples to construct a bias-amplified dataset for training $f_B$. Our data sample selection method can be directly applied to existing reweighting-based debiasing approaches, obtaining consistent performance boost and achieving the state-of-the-art performance on both synthetic and real-world datasets.

arxiv情報

著者 Jungsoo Lee,Jeonghoon Park,Daeyoung Kim,Juyoung Lee,Edward Choi,Jaegul Choo
発行日 2022-12-07 11:18:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク