要約
メリットベースの公平性制約の下で無制限のフィードバック遅延を伴う確率的組み合わせセミバンディット問題を研究します。
これは、クラウドソーシングやオンライン広告などのアプリケーションによって動機付けられており、即時のフィードバックがすぐに得られず、さまざまな選択肢 (または選択肢) 間の公平性が重要です。
制限のないフィードバック遅延には、フィードバック遅延が報酬から独立している報酬独立遅延と、フィードバック遅延が報酬と相関関係がある報酬依存遅延の 2 種類を考慮します。
さらに、武器の公平な選択を保証するために、メリットに基づく公平性の制約を導入します。
私たちは、報酬リグレットと公平性リグレットを定義し、無制限のフィードバック遅延の下で武器のメリットに基づいて武器を選択するための新しいバンディット アルゴリズムを提示します。
私たちのアルゴリズムはすべて、遅延分布の分位数に依存して、線形未満の期待報酬リグレスと期待公平性リグレスを達成していることを証明します。
また、合成データと現実世界のデータを使用して広範な実験を実施し、アルゴリズムがさまざまなフィードバック遅延を持つアームを公平に選択できることを示しています。
要約(オリジナル)
We study the stochastic combinatorial semi-bandit problem with unrestricted feedback delays under merit-based fairness constraints. This is motivated by applications such as crowdsourcing, and online advertising, where immediate feedback is not immediately available and fairness among different choices (or arms) is crucial. We consider two types of unrestricted feedback delays: reward-independent delays where the feedback delays are independent of the rewards, and reward-dependent delays where the feedback delays are correlated with the rewards. Furthermore, we introduce merit-based fairness constraints to ensure a fair selection of the arms. We define the reward regret and the fairness regret and present new bandit algorithms to select arms under unrestricted feedback delays based on their merits. We prove that our algorithms all achieve sublinear expected reward regret and expected fairness regret, with a dependence on the quantiles of the delay distribution. We also conduct extensive experiments using synthetic and real-world data and show that our algorithms can fairly select arms with different feedback delays.
arxiv情報
著者 | Ziqun Chen,Kechao Cai,Zhuoyue Chen,Jinbei Zhang,John C. S. Lui |
発行日 | 2024-07-29 14:42:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google