要約
我々は、マッチドペアキャリブレーションと呼ばれる、スコアベースのランキングシステムにおける公平性のテストを提案します。
私たちのアプローチは、セット全体にわたるランキング誤差の適切な尺度を計算する前に、サブグループ間の交絡的な差異を最小限に抑えた、一致するアイテムのペアのセットを構築します。
照合ステップでは、同じスコアの項目間でサブグループの結果を比較するため、測定されたパフォーマンスの違いがサブグループレベルのエクスポージャの不公平性を直接暗示するようになります。
私たちのアプローチが、バイナリ分類設定からランキングへのキャリブレーションの公平性の直観をどのように一般化するかを示し、私たちのアプローチをランキングの公平性尺度に関する他の提案に結び付けます。
さらに、私たちの戦略は、限界結果テストのロジックが、アナリストがモデルのスコアにアクセスできるケースにどのように拡張されるかを示しています。
最後に、マッチドペアキャリブレーションを実際のランキングデータセットに適用して、ランキングバイアスの検出における有効性を実証する例を示します。
要約(オリジナル)
We propose a test of fairness in score-based ranking systems called matched pair calibration. Our approach constructs a set of matched item pairs with minimal confounding differences between subgroups before computing an appropriate measure of ranking error over the set. The matching step ensures that we compare subgroup outcomes between identically scored items so that measured performance differences directly imply unfairness in subgroup-level exposures. We show how our approach generalizes the fairness intuitions of calibration from a binary classification setting to ranking and connect our approach to other proposals for ranking fairness measures. Moreover, our strategy shows how the logic of marginal outcome tests extends to cases where the analyst has access to model scores. Lastly, we provide an example of applying matched pair calibration to a real-word ranking data set to demonstrate its efficacy in detecting ranking bias.
arxiv情報
著者 | Hannah Korevaar,Chris McConnell,Edmund Tong,Erik Brinkman,Alana Shine,Misam Abbas,Blossom Metevier,Sam Corbett-Davies,Khalid El-Arini |
発行日 | 2023-06-20 14:20:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google