Toward Sufficient Statistical Power in Algorithmic Bias Assessment: A Test for ABROCA

要約

アルゴリズムのバイアスは、学習成果の不平等を拡大するリスクがあるため、教育データマイニング (EDM) における差し迫った懸念事項です。
ROC 曲線間の面積 (ABROCA) メトリクスは、人口統計グループ間のモデルのパフォーマンスの不一致を測定し、モデル全体の公平性を定量化するためによく使用されます。
ただし、分布が歪んでいるため、特にクラスまたはグループの不均衡が存在する場合、有意性の検定が困難になります。
この研究は、ABROCA の分布特性を調査し、その有意性検定のための堅牢な方法に貢献します。
具体的には、(1) ABROCA が既知の分布に従うかどうか、(2) ABROCA を使用してアルゴリズムのバイアスを確実にテストする方法、(3) 典型的な EDM サンプル仕様下での ABROCA ベースのバイアス評価で達成可能な統計的検出力について検討します。
シミュレーションの結果、ABROCA が歪度に対応するのに適した分布を含む標準分布と一致しないことが確認されました。
我々は、ABROCA のノンパラメトリックランダム化テストを提案し、特に不均衡な設定において、ABROCA でバイアスを確実に検出するには大きなサンプルサイズまたは実質的な効果サイズが必要であることを実証します。
調査結果は、EDM で一般的なサンプル サイズに基づく ABROCA ベースのバイアス評価が検出力不足になる傾向があり、モデルの公平性に関する結論の信頼性を損なうことを示唆しています。
電力をシミュレートし、ABROCA を統計的にテストするためのオープンソース コードを提供することで、このペーパーは EDM 研究におけるより信頼性の高い統計テストを促進することを目的としています。
教育モデリングにおける複製可能性と公平性を目指す幅広い取り組みをサポートします。

要約(オリジナル)

Algorithmic bias is a pressing concern in educational data mining (EDM), as it risks amplifying inequities in learning outcomes. The Area Between ROC Curves (ABROCA) metric is frequently used to measure discrepancies in model performance across demographic groups to quantify overall model fairness. However, its skewed distribution–especially when class or group imbalances exist–makes significance testing challenging. This study investigates ABROCA’s distributional properties and contributes robust methods for its significance testing. Specifically, we address (1) whether ABROCA follows any known distribution, (2) how to reliably test for algorithmic bias using ABROCA, and (3) the statistical power achievable with ABROCA-based bias assessments under typical EDM sample specifications. Simulation results confirm that ABROCA does not match standard distributions, including those suited to accommodate skewness. We propose nonparametric randomization tests for ABROCA and demonstrate that reliably detecting bias with ABROCA requires large sample sizes or substantial effect sizes, particularly in imbalanced settings. Findings suggest that ABROCA-based bias evaluation based on sample sizes common in EDM tends to be underpowered, undermining the reliability of conclusions about model fairness. By offering open-source code to simulate power and statistically test ABROCA, this paper aims to foster more reliable statistical testing in EDM research. It supports broader efforts toward replicability and equity in educational modeling.

arxiv情報

著者 Conrad Borchers
発行日 2025-01-08 18:43:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク