Improving Evaluation of Debiasing in Image Classification

要約

【タイトル】
画像分類のデバイアスの評価の改善

【要約】
・画像分類器は、予測にあたり目標クラスと強い相関がある周辺属性に過剰に依存し、データセットの偏りにより、バイアス属性を含むデータサンプル(バイアス整合サンプル)を正しく分類する一方、バイアス属性のないデータサンプル(バイアス矛盾サンプル)を正しく予測できない。
・最近の多くの研究は、このようなデータセットの偏りを緩和するためのタスク(デバイアスの処理)に焦点を当てているが、従来の研究では、いくつかの問題点が示されている。
・まず、従来の研究の多くは、ハイパーパラメータとモデルチェックポイントをどのように選択するかを特定していない。次に、従来のデバイアス研究では、非常に高いバイアス深度のデータセットで提案された方法を評価しており、低いバイアス深度のデータセットでは性能が低下している。さらに、従来の研究では、標準化された実験設定(データセットやニューラルネットワークなど)を共有しておらず、公平な比較を促進するために必要である。
・これらの問題に基づき、本稿では、1)調整基準として評価尺度「Align-Conflict(AC)スコア」を提案し、2)低いバイアス深度の実験設定を含み、それらがまだ探求されていないことを示し、3)標準化された実験設定を統一し、デバイアス処理方法の公平な比較を促進する。
・筆者らは、今後の研究者による公平な比較により、デバイアスの状況に応じて最適な性能を発揮する方法を探求することを期待している。

要約(オリジナル)

Image classifiers often rely overly on peripheral attributes that have a strong correlation with the target class (i.e., dataset bias) when making predictions. Due to the dataset bias, the model correctly classifies data samples including bias attributes (i.e., bias-aligned samples) while failing to correctly predict those without bias attributes (i.e., bias-conflicting samples). Recently, a myriad of studies focus on mitigating such dataset bias, the task of which is referred to as debiasing. However, our comprehensive study indicates several issues need to be improved when conducting evaluation of debiasing in image classification. First, most of the previous studies do not specify how they select their hyper-parameters and model checkpoints (i.e., tuning criterion). Second, the debiasing studies until now evaluated their proposed methods on datasets with excessively high bias-severities, showing degraded performance on datasets with low bias severity. Third, the debiasing studies do not share consistent experimental settings (e.g., datasets and neural networks) which need to be standardized for fair comparisons. Based on such issues, this paper 1) proposes an evaluation metric `Align-Conflict (AC) score’ for the tuning criterion, 2) includes experimental settings with low bias severity and shows that they are yet to be explored, and 3) unifies the standardized experimental settings to promote fair comparisons between debiasing methods. We believe that our findings and lessons inspire future researchers in debiasing to further push state-of-the-art performances with fair comparisons.

arxiv情報

著者 Jungsoo Lee,Juyoung Lee,Sanghun Jung,Jaegul Choo
発行日 2023-04-14 02:57:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク