FACTS: First Amplify Correlations and Then Slice to Discover Bias

要約

コンピューター ビジョン データセットには、タスクに関連するラベルと、(学習が容易な) 潜在的なタスクに無関係な属性 (コンテキストなど) との間に偽の相関関係が含まれることがよくあります。
このようなデータセットでトレーニングされたモデルは「ショートカット」を学習し、相関関係が成立しない、バイアスが競合するデータのスライスではパフォーマンスが低下します。
この研究では、下流のバイアス緩和戦略に情報を提供するために、そのようなスライスを特定する問題を研究します。
私たちは、まず相関関係を増幅し、その後スライスしてバイアスを発見する (FACTS) を提案します。この方法では、まず相関関係を増幅して、強く正則化された経験的リスクの最小化を通じて単純なバイアス調整仮説に適合させます。
次に、バイアス調整された特徴空間で混合モデリングを介して相関を意識したスライスを実行し、明確な相関を捕捉するパフォーマンスの低いデータ スライスを発見します。
その単純さにもかかわらず、私たちの方法は、さまざまな評価設定の範囲にわたる相関バイアスの特定において、以前の研究よりも大幅に向上しています(精度が 35%@10)。
私たちのコードは https://github.com/yvsriram/FACTS で入手できます。

要約(オリジナル)

Computer vision datasets frequently contain spurious correlations between task-relevant labels and (easy to learn) latent task-irrelevant attributes (e.g. context). Models trained on such datasets learn ‘shortcuts’ and underperform on bias-conflicting slices of data where the correlation does not hold. In this work, we study the problem of identifying such slices to inform downstream bias mitigation strategies. We propose First Amplify Correlations and Then Slice to Discover Bias (FACTS), wherein we first amplify correlations to fit a simple bias-aligned hypothesis via strongly regularized empirical risk minimization. Next, we perform correlation-aware slicing via mixture modeling in bias-aligned feature space to discover underperforming data slices that capture distinct correlations. Despite its simplicity, our method considerably improves over prior work (by as much as 35% precision@10) in correlation bias identification across a range of diverse evaluation settings. Our code is available at: https://github.com/yvsriram/FACTS.

arxiv情報

著者 Sriram Yenamandra,Pratik Ramesh,Viraj Prabhu,Judy Hoffman
発行日 2023-09-29 17:41:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク