要約
選択バイアスは、母集団をあまり代表しないデータでトレーニングされたモデルが、過小評価されたプロファイルに対して望ましくない動作を示す可能性があるため、機械学習の公平性にとって重大な課題を引き起こします。
自己トレーニングのような半教師あり学習戦略は、ラベルなしのデータをモデルのトレーニングに組み込むことで選択バイアスを軽減し、母集団の分布についてのさらなる洞察を得ることができます。
ただし、従来の自己トレーニングでは信頼性の高いデータ サンプルを含めようとするため、既存のモデルのバイアスが強化され、有効性が損なわれる可能性があります。
私たちは、より多様なサンプルを含めることによって信頼に基づくバイアスに対抗するために、メトリック学習とその暗黙的な埋め込み空間を活用する、多様性に基づく自己トレーニング戦略である Metric-DST を提案します。
Metric-DST は、生成されたデータセットと誘導バイアスのある現実世界のデータセットに対する選択バイアスの存在下、および固有のバイアスのある分子生物学予測タスクの存在下で、より堅牢なモデルを学習しました。
Metric-DST 学習戦略は、選択バイアスを軽減し、機械学習モデルの公平性を高めるための、柔軟で広く適用可能なソリューションを提供します。
要約(オリジナル)
Selection bias poses a critical challenge for fairness in machine learning, as models trained on data that is less representative of the population might exhibit undesirable behavior for underrepresented profiles. Semi-supervised learning strategies like self-training can mitigate selection bias by incorporating unlabeled data into model training to gain further insight into the distribution of the population. However, conventional self-training seeks to include high-confidence data samples, which may reinforce existing model bias and compromise effectiveness. We propose Metric-DST, a diversity-guided self-training strategy that leverages metric learning and its implicit embedding space to counter confidence-based bias through the inclusion of more diverse samples. Metric-DST learned more robust models in the presence of selection bias for generated and real-world datasets with induced bias, as well as a molecular biology prediction task with intrinsic bias. The Metric-DST learning strategy offers a flexible and widely applicable solution to mitigate selection bias and enhance fairness of machine learning models.
arxiv情報
著者 | Yasin I. Tepeli,Mathijs de Wolf,Joana P. Goncalves |
発行日 | 2024-11-27 15:29:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google