要約
このペーパーでは、学習者が公平性と効率の制約を満たしながら、エージェントのいずれかに割り当てられない不可分なアイテムを順次観察する複数のエージェントを含むオンラインフェア部門の問題の新しいバリアントを検討します。
既存のアルゴリズムは、十分に多数のコピーを備えた少数のアイテムを想定しています。これにより、騒々しいBanditフィードバックからのすべてのアイテムエージェントペアの適切なユーティリティ推定が保証されます。
ただし、この仮定は、多くの実際のアプリケーション、たとえばプラットフォームのサービスプロバイダー(エージェント)を数回(アイテムのコピー)しか使用しないユーザー(アイテム)が多いオンラインプラットフォームでは、すべてのアイテムエージェントペアのユーティリティを正確に推定することを困難にする可能性があります。
これに対処するために、ユーティリティはアイテムエージェント機能の未知の機能であると仮定します。
次に、以下の後悔の保証で、オンラインフェア部門を文脈上の盗賊問題としてモデル化するアルゴリズムを提案します。
実験結果は、提案されたアルゴリズムの有効性をさらに検証します。
要約(オリジナル)
This paper considers a novel variant of the online fair division problem involving multiple agents in which a learner sequentially observes an indivisible item that has to be irrevocably allocated to one of the agents while satisfying a fairness and efficiency constraint. Existing algorithms assume a small number of items with a sufficiently large number of copies, which ensures a good utility estimation for all item-agent pairs from noisy bandit feedback. However, this assumption may not hold in many real-life applications, for example, an online platform that has a large number of users (items) who use the platform’s service providers (agents) only a few times (a few copies of items), which makes it difficult to accurately estimate utilities for all item-agent pairs. To address this, we assume utility is an unknown function of item-agent features. We then propose algorithms that model online fair division as a contextual bandit problem, with sub-linear regret guarantees. Our experimental results further validate the effectiveness of the proposed algorithms.
arxiv情報
著者 | Arun Verma,Indrajit Saha,Makoto Yokoo,Bryan Kian Hsiang Low |
発行日 | 2025-05-29 17:56:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google