Repeated Principal-Agent Games with Unobserved Agent Rewards and Perfect-Knowledge Agents

要約

タイトル:報酬が観測されないエージェントと完全知識をもつエージェントとの繰り返し主体-エージェントゲーム

要約:
-本論文では、医療や持続可能な交通などの実世界のアプリケーションにおいて、複数の筆頭者-エージェントゲームを多腕バンディット(MAB)フレームワーク内で繰り返しプレイするシナリオを研究する。
– 筆頭者はバンディットアームごとに異なる報酬を与え、エージェントは期待報酬と激励金を最大化するためにバンディットアームを選択し、筆頭者は選択されたアームを観察し、選択されたアームの報酬を受け取る(エージェントの報酬とは異なる)。
– 筆頭者がエージェントの報酬を直接観測できないため、既存の推定技術を使用して期待報酬を直接学習することはできないため、筆頭者のポリシーを設計することは課題である。その結果、このシナリオや類似のシナリオのポリシー設計の問題はほとんど探求されていない。
– 本論文では、エージェントがバンディットアームごとの期待報酬に完全な知識を持っている場合に、このシナリオにおいて低いregret(ルート平均誤差、対数因子を含む)を達成するポリシーを構築する。
– ポリシーを構築するために、まずエージェントの期待報酬の推定器を構築する。推定器は、提供された連続的な激励金データと選択されたアームデータを使用するため、筆頭者の推定は、MABのオンライン逆最適化の類推と見なすことができる。次に、私たちは推定器のための有限サンプル集中度境界を導出して、低いregretを達成するポリシーを構築する。
– 最後に、協調的な交通計画の実世界の設定に私たちのポリシーを適用した数値シミュレーションを行い、その適用性を実証する。

要約(オリジナル)

Motivated by a number of real-world applications from domains like healthcare and sustainable transportation, in this paper we study a scenario of repeated principal-agent games within a multi-armed bandit (MAB) framework, where: the principal gives a different incentive for each bandit arm, the agent picks a bandit arm to maximize its own expected reward plus incentive, and the principal observes which arm is chosen and receives a reward (different than that of the agent) for the chosen arm. Designing policies for the principal is challenging because the principal cannot directly observe the reward that the agent receives for their chosen actions, and so the principal cannot directly learn the expected reward using existing estimation techniques. As a result, the problem of designing policies for this scenario, as well as similar ones, remains mostly unexplored. In this paper, we construct a policy that achieves a low regret (i.e., square-root regret up to a log factor) in this scenario for the case where the agent has perfect-knowledge about its own expected rewards for each bandit arm. We design our policy by first constructing an estimator for the agent’s expected reward for each bandit arm. Since our estimator uses as data the sequence of incentives offered and subsequently chosen arms, the principal’s estimation can be regarded as an analogy of online inverse optimization in MAB’s. Next we construct a policy that we prove achieves a low regret by deriving finite-sample concentration bounds for our estimator. We conclude with numerical simulations demonstrating the applicability of our policy to real-life setting from collaborative transportation planning.

arxiv情報

著者 Ilgin Dogan,Zuo-Jun Max Shen,Anil Aswani
発行日 2023-05-07 19:30:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.GT, cs.LG, stat.ML パーマリンク