A survey on bias in machine learning research

要約

機械学習におけるバイアスに関する現在の研究は、公平性に焦点を当てていることが多く、バイアスの根本や原因は見落とされています。
しかし、バイアスはもともと「系統的エラー」として定義されており、多くの場合、研究プロセスのさまざまな段階で人間によって引き起こされます。
この記事は、データとモデルにおけるバイアスとエラーの潜在的な原因に対する分類法を提供することにより、研究におけるバイアスに関する過去の文献間のギャップを埋めることを目的としています。
この論文では、機械学習パイプラインのバイアスに焦点を当てています。
調査では、機械学習 (ML) パイプラインにおける 40 以上の潜在的なバイアス源を分析し、それぞれについて明確な例を提供しています。
機械学習におけるバイアスの原因とその結果を理解することで、バイアスの検出と軽減のためのより良い方法を開発でき、より公平で透明性が高く、より正確な ML モデルを実現できます。

要約(オリジナル)

Current research on bias in machine learning often focuses on fairness, while overlooking the roots or causes of bias. However, bias was originally defined as a ‘systematic error,’ often caused by humans at different stages of the research process. This article aims to bridge the gap between past literature on bias in research by providing taxonomy for potential sources of bias and errors in data and models. The paper focus on bias in machine learning pipelines. Survey analyses over forty potential sources of bias in the machine learning (ML) pipeline, providing clear examples for each. By understanding the sources and consequences of bias in machine learning, better methods can be developed for its detecting and mitigating, leading to fairer, more transparent, and more accurate ML models.

arxiv情報

著者 Agnieszka Mikołajczyk-Bareła,Michał Grochowski
発行日 2023-08-22 07:56:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク