Fairness Shields: Safeguarding against Biased Decision Makers

要約

AI ベースの意思決定者が人間の生活にますます影響を与えるにつれ、彼らの決定が性別や人種などの人々の敏感な属性に関して不公平または偏っている場合が多いという懸念が高まっています。
既存のバイアス防止策のほとんどは、長期的には確率的な公平性を保証するものであり、短い決定シーケンスの特定のインスタンスに基づいて決定が偏る可能性があります。
公平性シールドを導入します。ここでは、象徴的な意思決定者 (公平性シールド) が、展開された別のブラックボックス意思決定者の一連の意思決定を継続的に監視し、総介入コストがかかりながら、所定の公平性基準が満たされるように介入します。
最小化されます。
公平性シールドを計算するための 4 つの異なるアルゴリズムを紹介します。そのうち 1 つは固定期間にわたる公平性を保証し、3 つは固定間隔後に定期的に公平性を保証します。
将来の意思決定とその介入コストの分布を考慮すると、私たちのアルゴリズムは、さまざまなレベルの計算コストと最適性保証を使用して、有界最適制御問題のさまざまなインスタンスを解決します。
私たちの実証的評価は、さまざまなシナリオにわたってコスト効率を維持しながら公平性を確保する上で、これらのシールドの有効性を実証しています。

要約(オリジナル)

As AI-based decision-makers increasingly influence human lives, it is a growing concern that their decisions are often unfair or biased with respect to people’s sensitive attributes, such as gender and race. Most existing bias prevention measures provide probabilistic fairness guarantees in the long run, and it is possible that the decisions are biased on specific instances of short decision sequences. We introduce fairness shielding, where a symbolic decision-maker — the fairness shield — continuously monitors the sequence of decisions of another deployed black-box decision-maker, and makes interventions so that a given fairness criterion is met while the total intervention costs are minimized. We present four different algorithms for computing fairness shields, among which one guarantees fairness over fixed horizons, and three guarantee fairness periodically after fixed intervals. Given a distribution over future decisions and their intervention costs, our algorithms solve different instances of bounded-horizon optimal control problems with different levels of computational costs and optimality guarantees. Our empirical evaluation demonstrates the effectiveness of these shields in ensuring fairness while maintaining cost efficiency across various scenarios.

arxiv情報

著者 Filip Cano,Thomas A. Henzinger,Bettina Könighofer,Konstantin Kueffner,Kaushik Mallik
発行日 2024-12-16 17:21:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク