Hidden or Inferred: Fair Learning-To-Rank with Unknown Demographics

要約

人生に重大な影響を与える分野での意思決定に、ランク付け学習モデルがますます導入される中、FairML コミュニティは、ランク付け学習 (LTR) モデルの開発に取り組んでいます。
これらのモデルは、人種や性別などのデリケートな人口統計的特徴の利用可能性に依存しています。
ただし、実際には、規制上の障害やプライバシー上の懸念により、このデータは収集や使用から保護されています。
その結果、実務者は、これらの機能がないにもかかわらず公平性を促進するか、人口統計推論ツールを利用してこれらの機能を推論する必要がある可能性があります。
これらのツールには誤りが含まれる可能性があることを考慮して、この論文は、人口動態推論のエラーが一般的な公平な LTR 戦略の公平性パフォーマンスにどのような影響を与えるかをさらに理解することを目的としています。
このような人口統計的属性をモデルから隠しておく方が、推論するよりも良いのはどのような場合ですか?
私たちは、人口統計的特徴が隠されている場合とない場合の公平な LTR から推測された公平性を意識しない LTR に続く公平な再ランキングまで、さまざまな公平な LTR 戦略を検討します。
私たちは、推論された機密属性を体系的に混乱させることにより、さまざまなレベルの推論エラーをモデル化する、制御された経験的調査を実施します。
また、実世界のデータセットと一般的なオープンソース推論手法を使用した 3 つのケース スタディも実行します。
私たちの調査結果は、推論ノイズが増大するにつれて、公平性の考慮事項を学習プロセスに組み込んだ LTR ベースの手法ではバイアスが増大する可能性があることを明らかにしています。
対照的に、公正な再ランキング戦略は推論エラーに対してより堅牢です。
私たちの実験研究のすべてのソース コード、データ、実験成果物はここから入手できます: https://github.com/sewen007/hoiltr.git

要約(オリジナル)

As learning-to-rank models are increasingly deployed for decision-making in areas with profound life implications, the FairML community has been developing fair learning-to-rank (LTR) models. These models rely on the availability of sensitive demographic features such as race or sex. However, in practice, regulatory obstacles and privacy concerns protect this data from collection and use. As a result, practitioners may either need to promote fairness despite the absence of these features or turn to demographic inference tools to attempt to infer them. Given that these tools are fallible, this paper aims to further understand how errors in demographic inference impact the fairness performance of popular fair LTR strategies. In which cases would it be better to keep such demographic attributes hidden from models versus infer them? We examine a spectrum of fair LTR strategies ranging from fair LTR with and without demographic features hidden versus inferred to fairness-unaware LTR followed by fair re-ranking. We conduct a controlled empirical investigation modeling different levels of inference errors by systematically perturbing the inferred sensitive attribute. We also perform three case studies with real-world datasets and popular open-source inference methods. Our findings reveal that as inference noise grows, LTR-based methods that incorporate fairness considerations into the learning process may increase bias. In contrast, fair re-ranking strategies are more robust to inference errors. All source code, data, and experimental artifacts of our experimental study are available here: https://github.com/sewen007/hoiltr.git

arxiv情報

著者 Oluseun Olulana,Kathleen Cachel,Fabricio Murai,Elke Rundensteiner
発行日 2024-07-24 17:54:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG パーマリンク