Sequential Principal-Agent Problems with Communication: Efficient Computation and Learning

要約

私たちは、双方の不完全な情報を持つプリンシパルとエージェントの間の逐次的意思決定問題を研究します。
このモデルでは、プリンシパルとエージェントは確率的環境で対話し、それぞれが他方には得られない状態に関する観察を知ることができます。
プリンシパルは、エージェントから情報を引き出すことと、自分自身の情報に関するシグナルを提供することの両方のコミットメント権限を持っています。
プリンシパルとエージェントは互いに信号を通信し、この通信に基づいてアクションを独立して選択します。
各プレイヤーは状態と共同行動に基づいて報酬を受け取り、環境は新しい状態に移行します。
インタラクションは有限の時間軸にわたって継続し、両方のプレイヤーはその時間軸全体で自分の総利益を最適化するように行動します。
私たちのモデルには、特殊なケースとして、不完全な情報と POMDP の確率的ゲーム、および逐次ベイズ説得とメカニズム設計問題が含まれます。
私たちは、最適なポリシーの計算と学習の両方を環境内で研究します。
一般的な問題は計算的には扱いにくいですが、私たちは基礎となる状態観測分布に対する条件付き独立性の仮定の下でアルゴリズムによる解決策を研究します。
プリンシパルの最適なポリシーを加法近似まで計算するための多項式時間アルゴリズムを提案します。
さらに、遷移確率が事前にわかっていない場合の効率的な学習アルゴリズムを示します。
このアルゴリズムは、両方のプレイヤーにとってサブリニアな後悔を保証します。

要約(オリジナル)

We study a sequential decision making problem between a principal and an agent with incomplete information on both sides. In this model, the principal and the agent interact in a stochastic environment, and each is privy to observations about the state not available to the other. The principal has the power of commitment, both to elicit information from the agent and to provide signals about her own information. The principal and the agent communicate their signals to each other, and select their actions independently based on this communication. Each player receives a payoff based on the state and their joint actions, and the environment moves to a new state. The interaction continues over a finite time horizon, and both players act to optimize their own total payoffs over the horizon. Our model encompasses as special cases stochastic games of incomplete information and POMDPs, as well as sequential Bayesian persuasion and mechanism design problems. We study both computation of optimal policies and learning in our setting. While the general problems are computationally intractable, we study algorithmic solutions under a conditional independence assumption on the underlying state-observation distributions. We present an polynomial-time algorithm to compute the principal’s optimal policy up to an additive approximation. Additionally, we show an efficient learning algorithm in the case where the transition probabilities are not known beforehand. The algorithm guarantees sublinear regret for both players.

arxiv情報

著者 Jiarui Gan,Rupak Majumdar,Debmalya Mandal,Goran Radanovic
発行日 2023-06-06 16:20:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, cs.MA パーマリンク