On Mitigating Affinity Bias through Bandits with Evolving Biased Feedback

要約

無意識のバイアスは、雇用、昇進、入場に影響を与え、仲間を評価する方法に影響を与えることが示されています。
この作業では、親和性バイアスに焦点を当てています。これは、好意的な意図がないにもかかわらず、私たちに似た人々を好む無意識のバイアスの要素です。
今日雇われた人々が明日の雇用委員会の一部になる世界では、私たちは特に、アフィニティバイアスがこのフィードバックループにどのように影響するかを理解する(そして緩和する)ことに興味があります。
この問題には2つの特徴的な機能があります。1)候補者の偏った値のみを観察しますが、それらの実際の価値に関して最適化したい2)特定の特性セットを持つ候補者に対するバイアスは、同じ一連の特性を持つ雇用委員会の人々の割合に依存します。
アフィニティバンディットと呼ばれるこれらの2つの機能を示す新しいBanditsバリアントを紹介します。
当然のことながら、UCBなどの古典的なアルゴリズムは、この設定で最高のアームを識別できないことがよくあります。
新しいインスタンス依存の後悔の下限を証明します。これは、$ k $の乗算関数によって標準の盗賊設定のそれよりも大きいことを証明しています。
私たちは時変であり、ポリシーの過去の行動に依存している報酬を扱うため、この下限を導き出すには、標準的な盗賊テクニックを超えて証明技術を開発する必要があります。
最後に、本当の報酬を決して観察しないにもかかわらず、この後悔にほぼ一致するエリミネーションスタイルのアルゴリズムを設計します。

要約(オリジナル)

Unconscious bias has been shown to influence how we assess our peers, with consequences for hiring, promotions and admissions. In this work, we focus on affinity bias, the component of unconscious bias which leads us to prefer people who are similar to us, despite no deliberate intention of favoritism. In a world where the people hired today become part of the hiring committee of tomorrow, we are particularly interested in understanding (and mitigating) how affinity bias affects this feedback loop. This problem has two distinctive features: 1) we only observe the biased value of a candidate, but we want to optimize with respect to their real value 2) the bias towards a candidate with a specific set of traits depends on the fraction of people in the hiring committee with the same set of traits. We introduce a new bandits variant that exhibits those two features, which we call affinity bandits. Unsurprisingly, classical algorithms such as UCB often fail to identify the best arm in this setting. We prove a new instance-dependent regret lower bound, which is larger than that in the standard bandit setting by a multiplicative function of $K$. Since we treat rewards that are time-varying and dependent on the policy’s past actions, deriving this lower bound requires developing proof techniques beyond the standard bandit techniques. Finally, we design an elimination-style algorithm which nearly matches this regret, despite never observing the real rewards.

arxiv情報

著者 Matthew Faw,Constantine Caramanis,Jessica Hoffmann
発行日 2025-03-07 18:23:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク