Data Debiasing with Datamodels (D3M): Improving Subgroup Robustness via Data Selection

要約

機械学習モデルは、トレーニング中に過小評価されたサブグループでは失敗する可能性があります。
データセットのバランシングなどの手法を使用すると、パフォーマンスの低いグループのパフォーマンスを向上させることができますが、トレーニング グループのアノテーションにアクセスする必要があり、最終的にはデータセットの大部分が削除される可能性があります。
このペーパーでは、少数派グループでモデルの失敗を引き起こす特定のトレーニング サンプルを分離して削除するバイアス除去アプローチである、データモデルによるデータ偏り除去 (D3M) を紹介します。
私たちのアプローチにより、少数の例のみを削除しながら偏りのない分類器を効率的にトレーニングすることができ、グループ アノテーションのトレーニングや追加のハイパーパラメーター調整は必要ありません。

要約(オリジナル)

Machine learning models can fail on subgroups that are underrepresented during training. While techniques such as dataset balancing can improve performance on underperforming groups, they require access to training group annotations and can end up removing large portions of the dataset. In this paper, we introduce Data Debiasing with Datamodels (D3M), a debiasing approach which isolates and removes specific training examples that drive the model’s failures on minority groups. Our approach enables us to efficiently train debiased classifiers while removing only a small number of examples, and does not require training group annotations or additional hyperparameter tuning.

arxiv情報

著者 Saachi Jain,Kimia Hamidieh,Kristian Georgiev,Andrew Ilyas,Marzyeh Ghassemi,Aleksander Madry
発行日 2024-06-24 17:51:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG, stat.ML パーマリンク