Bias in Motion: Theoretical Insights into the Dynamics of Bias in SGD Training

要約

機械学習システムは多くの場合、データ内の望ましくない特徴を利用することでバイアスを獲得し、異なる部分母集団間で精度にばらつきのある影響を与えます。
バイアス形成に関する現在の理解は主に学習の初期段階と最終段階に焦点を当てており、過渡的なダイナミクスに関する知識にはギャップが残っています。
このギャップに対処するために、この論文では、ガウス混合モデルを使用してさまざまなデータ部分母集団をモデル化する教師と生徒の設定におけるバイアスの進化を調査します。
この設定における線形分類器の確率的勾配降下ダイナミクスの分析的記述を提供し、これが高次元で正確であることを証明します。
特に、私たちの分析は、部分母集団のさまざまな特性がさまざまなタイムスケールでバイアスにどのように影響するかを明らかにし、トレーニング中の分類器の優先順位の変化を示しています。
私たちの調査結果を公平性と堅牢性に適用して、異種データと偽の特徴がいつ、どのようにしてバイアスを生成し、増幅させるかを明らかにします。
CIFAR10、MNIST、CelebA などの合成データセットと実際のデータセットでより深いネットワークをトレーニングすることにより、より複雑なシナリオで結果を経験的に検証します。

要約(オリジナル)

Machine learning systems often acquire biases by leveraging undesired features in the data, impacting accuracy variably across different sub-populations. Current understanding of bias formation mostly focuses on the initial and final stages of learning, leaving a gap in knowledge regarding the transient dynamics. To address this gap, this paper explores the evolution of bias in a teacher-student setup modeling different data sub-populations with a Gaussian-mixture model. We provide an analytical description of the stochastic gradient descent dynamics of a linear classifier in this setting, which we prove to be exact in high dimension. Notably, our analysis reveals how different properties of sub-populations influence bias at different timescales, showing a shifting preference of the classifier during training. Applying our findings to fairness and robustness, we delineate how and when heterogeneous data and spurious features can generate and amplify bias. We empirically validate our results in more complex scenarios by training deeper networks on synthetic and real datasets, including CIFAR10, MNIST, and CelebA.

arxiv情報

著者 Anchit Jain,Rozhin Nobahari,Aristide Baratin,Stefano Sarao Mannelli
発行日 2024-05-28 15:50:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG, stat.ML パーマリンク