Trading-off price for data quality to achieve fair online allocation


我々は、長期的な公平性ペナルティに従うオンライン割当の問題を考察する。しかし、既存の研究とは異なり、意思決定者が保護された属性を観測しているとは仮定しない。その代わりに、異なる品質の情報源から属性を推定するのに役立つデータを購入することができる。我々はこの問題を多腕バンディット問題としてモデル化し、各腕がデータソースの選択に対応し、オンライン割り当て問題と結合する。両問題を合同で解くアルゴリズムを提案し、$mathcal{O}( \sqrt{T})$ で囲まれる後悔を持つことを示す。重要な難点は、ソースを選択することによって受け取る報酬が公平性ペナルティによって相関されることであり、これは(確率的設定にもかかわらず)ランダム化の必要性につながる。我々のアルゴリズムは、ソース選択の前に利用可能な文脈情報を考慮し、多くの異なる公平性の概念に適応することができる。また、いくつかの例では、使用する推定値をその場で学習できることを示す。


We consider the problem of online allocation subject to a long-term fairness penalty. Contrary to existing works, however, we do not assume that the decision-maker observes the protected attributes — which is often unrealistic in practice. Instead they can purchase data that help estimate them from sources of different quality; and hence reduce the fairness penalty at some cost. We model this problem as a multi-armed bandit problem where each arm corresponds to the choice of a data source, coupled with the online allocation problem. We propose an algorithm that jointly solves both problems and show that it has a regret bounded by $\mathcal{O}(\sqrt{T})$. A key difficulty is that the rewards received by selecting a source are correlated by the fairness penalty, which leads to a need for randomization (despite a stochastic setting). Our algorithm takes into account contextual information available before the source selection, and can adapt to many different fairness notions. We also show that in some instances, the estimates used can be learned on the fly.


著者 Mathieu Molina,Nicolas Gast,Patrick Loiseau,Vianney Perchet
発行日 2023-12-04 15:27:00+00:00
