要約
機械学習アルゴリズムの公平性は、そのようなアルゴリズムが私たちの生活の日々の側面に浸透するため、注目を集めています。
データセットでバイアスが現れる1つの方法は、欠損値を使用することです。
データが欠落している場合、これらのデータはしばしば完全にランダムに欠落していると想定されます。
現実には、欠落しているデータの傾向は、個人の人口統計学的特性と結びついていることがよくあります。
欠損値とその取り扱いがアルゴリズムの公平性にどのように影響するかについての研究は限られています。
ほとんどの研究者は、リストごとの削除を適用するか、より高度なものと比較して、より単純な代入法(平均モードまたはモードなど)を使用する傾向があります(例:多重代入)。
したがって、アルゴリズムの公平性に対するより単純な方法の影響を研究します。
研究の出発点は、欠落のメカニズムであり、欠落データの処理方法と最終的にこれが公平性にどのように影響するかにつながります。
公平性の分野で3つの一般的なデータセットがシミュレーション調査で切断されています。
結果は、特定のシナリオでは、欠落メカニズムがランダムに欠落している場合、公平性への影響が顕著になる可能性があることを示しています。
さらに、リストごとの削除やモード代入などの基本的な欠落データ処理手法は、k-nearest隣接の代入のようなより複雑な代入法と比較して、より複雑な代入法に比べてより高い公平性につながる可能性がありますが、多くの場合、精度が低くなります。
要約(オリジナル)
Fairness of machine learning algorithms is receiving increasing attention, as such algorithms permeate the day-to-day aspects of our lives. One way in which bias can manifest in a dataset is through missing values. If data are missing, these data are often assumed to be missing completely randomly; in reality the propensity of data being missing is often tied to the demographic characteristics of individuals. There is limited research into how missing values and the handling thereof can impact the fairness of an algorithm. Most researchers either apply listwise deletion or tend to use the simpler methods of imputation (e.g. mean or mode) compared to the more advanced ones (e.g. multiple imputation); we therefore study the impact of the simpler methods on the fairness of algorithms. The starting point of the study is the mechanism of missingness, leading into how the missing data are processed and finally how this impacts fairness. Three popular datasets in the field of fairness are amputed in a simulation study. The results show that under certain scenarios the impact on fairness can be pronounced when the missingness mechanism is missing at random. Furthermore, elementary missing data handling techniques like listwise deletion and mode imputation can lead to higher fairness compared to more complex imputation methods like k-nearest neighbour imputation, albeit often at the cost of lower accuracy.
arxiv情報
著者 | Aeysha Bhatti,Trudie Sandrock,Johane Nienkemper-Swanepoel |
発行日 | 2025-03-10 13:32:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google