Learning Fair Division from Bandit Feedback

要約

この研究は、中央プランナーがエージェントの価値観や効用について正確な知識を持たずに項目を順番に割り当てる、不確実性の下でのオンラインフェア分割の学習に取り組んでいます。
従来のオンライン アルゴリズムとは異なり、ここでのプランナーはアイテムを割り当てた後に取得されるノイズの多い推定値に依存します。
\textit{二重平均化}を利用したラッパー アルゴリズムを導入し、バンディット フィードバックを通じて到着アイテムのタイプ分布とエージェントの値の両方を段階的に学習できるようにします。
このアプローチにより、アルゴリズムは、加算効用を持つエージェントを使用して、線形フィッシャー市場で最適なナッシュ社会福祉を漸近的に達成することができます。
私たちはナッシュ社会福祉における後悔限界を確立し、合成データセットと経験的データセットにわたって提案したアルゴリズムの優れたパフォーマンスを経験的に検証します。

要約(オリジナル)

This work addresses learning online fair division under uncertainty, where a central planner sequentially allocates items without precise knowledge of agents’ values or utilities. Departing from conventional online algorithm, the planner here relies on noisy, estimated values obtained after allocating items. We introduce wrapper algorithms utilizing \textit{dual averaging}, enabling gradual learning of both the type distribution of arriving items and agents’ values through bandit feedback. This approach enables the algorithms to asymptotically achieve optimal Nash social welfare in linear Fisher markets with agents having additive utilities. We establish regret bounds in Nash social welfare and empirically validate the superior performance of our proposed algorithms across synthetic and empirical datasets.

arxiv情報

著者 Hakuei Yamada,Junpei Komiyama,Kenshi Abe,Atsushi Iwasaki
発行日 2023-11-15 16:10:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク