Is Your Model ‘MADD’? A Novel Metric to Evaluate Algorithmic Fairness for Predictive Student Models

要約

予測学生モデルは、教育成果を向上させ、関係者が情報に基づいた意思決定を行えるようサポートする機能があるため、学習環境での使用が増えています。
ただし、予測モデルには偏りがあり、不公平な結果が生じる可能性があり、一部の生徒に対する潜在的な差別や長期的な有害な影響につながる可能性があります。
このため、そのようなバイアスを捉えて定量化することを目的とした公平性の指標に関する研究が促進されました。
それにもかかわらず、これまでのところ、教育で使用されている既存の公平性指標は、予測パフォーマンス指向であり、モデルの動作や結果の偏りの深刻度を考慮せず、生徒のグループ全体で偏った結果を評価することに重点を置いています。
したがって、モデルの識別動作を予測パフォーマンスとは独立して分析するための新しい指標であるモデル絶対密度距離 (MADD) を提案します。
また、モデルが生徒のグループをどのように区別するかを人による詳細な評価を可能にする、補完的な視覚化ベースの分析も提供します。
私たちは、オープン教育データセット上のいくつかの一般的な予測分類モデルを使用して、オンライン コースでの生徒の成功を予測するという共通のタスクに対するアプローチを評価します。
また、この指標を、教育分野で開発された唯一の予測パフォーマンス指向の公平性指標である ABROCA と比較します。
このデータセットの結果は次のことを示しています: (1) 公正な予測パフォーマンスは公正なモデルの動作、ひいては公正な結果を保証するものではない、(2) データのバイアスと予測パフォーマンスのバイアス、差別的行動のバイアスの間に直接の関係はない、(3) 訓練された
同じデータ上でも、モデルは異なる機密機能に応じて異なる差別的な動作を示します。
したがって、満足のいく予測パフォーマンスを示すモデルに対して MADD を使用して、モデルがどのように動作するかをより詳細に理解し、モデルの選択とその使用法を調整することをお勧めします。

要約(オリジナル)

Predictive student models are increasingly used in learning environments due to their ability to enhance educational outcomes and support stakeholders in making informed decisions. However, predictive models can be biased and produce unfair outcomes, leading to potential discrimination against some students and possible harmful long-term implications. This has prompted research on fairness metrics meant to capture and quantify such biases. Nonetheless, so far, existing fairness metrics used in education are predictive performance-oriented, focusing on assessing biased outcomes across groups of students, without considering the behaviors of the models nor the severity of the biases in the outcomes. Therefore, we propose a novel metric, the Model Absolute Density Distance (MADD), to analyze models’ discriminatory behaviors independently from their predictive performance. We also provide a complementary visualization-based analysis to enable fine-grained human assessment of how the models discriminate between groups of students. We evaluate our approach on the common task of predicting student success in online courses, using several common predictive classification models on an open educational dataset. We also compare our metric to the only predictive performance-oriented fairness metric developed in education, ABROCA. Results on this dataset show that: (1) fair predictive performance does not guarantee fair models’ behaviors and thus fair outcomes, (2) there is no direct relationship between data bias and predictive performance bias nor discriminatory behaviors bias, and (3) trained on the same data, models exhibit different discriminatory behaviors, according to different sensitive features too. We thus recommend using the MADD on models that show satisfying predictive performance, to gain a finer-grained understanding on how they behave and to refine models selection and their usage.

arxiv情報

著者 Mélina Verger,Sébastien Lallé,François Bouchet,Vanda Luengo
発行日 2023-05-24 16:55:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG, stat.ML パーマリンク