Generalized Principal-Agent Problem with a Learning Agent

要約

Stackelberg ゲーム、契約設計、ベイジアン説得などの古典的なプリンシパルとエージェントの問題では、多くの場合、エージェントがプリンシパルの献身的な戦略に最もよく対応できると想定されています。
私たちは、プリンシパルにはコミットメント権限がなく、エージェントはアルゴリズムを使用してプリンシパルへの応答を学習するという仮定の下で、一般化されたプリンシパルとエージェントの問題の反復を研究します。
この問題を、エージェントがほぼ最適に応答するワンショットの一般化されたプリンシパルとエージェントの問題に還元します。
この削減を使用して、次のことがわかります: (1) エージェントがリグレット $\mathrm{Reg}(T)$ を伴うコンテキスト無リグレット学習アルゴリズムを使用する場合、プリンシパルは少なくとも $U^* – \Theta\ の効用を保証できます。
big(\sqrt{\tfrac{\mathrm{Reg}(T)}{T}}\big)$、ここで $U^*$ は、最良応答エージェントを備えたクラシック モデルにおけるプリンシパルの最適ユーティリティです。
(2) エージェントが swap-regret $\mathrm{SReg}(T)$ を使用してコンテキストに応じた no-swap-regret 学習アルゴリズムを使用する場合、プリンシパルは $U^* + O(\frac{\mathrm) を超える効用を得ることができません。
{SReg(T)}}{T})$。
しかし、(3) エージェントが平均値ベースの学習アルゴリズムを使用する場合 (これは、リグレットなしでもスワップリグレットなしでも可能です)、プリンシパルは $U^*$ よりも大幅に優れた成績を収めることがあります。
これらの結果は、Stackelberg ゲームや契約設計における以前の結果を改良するだけでなく、学習エージェントによるベイズ説得や、エージェントが個人情報を持たない一般化されたすべてのプリンシパル-エージェント問題に関する新しい結果にもつながります。

要約(オリジナル)

Classic principal-agent problems such as Stackelberg games, contract design, and Bayesian persuasion, often assume that the agent is able to best respond to the principal’s committed strategy. We study repeated generalized principal-agent problems under the assumption that the principal does not have commitment power and the agent uses algorithms to learn to respond to the principal. We reduce this problem to a one-shot generalized principal-agent problem where the agent approximately best responds. Using this reduction, we show that: (1) If the agent uses contextual no-regret learning algorithms with regret $\mathrm{Reg}(T)$, then the principal can guarantee utility at least $U^* – \Theta\big(\sqrt{\tfrac{\mathrm{Reg}(T)}{T}}\big)$, where $U^*$ is the principal’s optimal utility in the classic model with a best-responding agent. (2) If the agent uses contextual no-swap-regret learning algorithms with swap-regret $\mathrm{SReg}(T)$, then the principal cannot obtain utility more than $U^* + O(\frac{\mathrm{SReg(T)}}{T})$. But (3) if the agent uses mean-based learning algorithms (which can be no-regret but not no-swap-regret), then the principal can sometimes do significantly better than $U^*$. These results not only refine previous results in Stackelberg games and contract design, but also lead to new results for Bayesian persuasion with a learning agent and all generalized principal-agent problems where the agent does not have private information.

arxiv情報

著者 Tao Lin,Yiling Chen
発行日 2024-11-25 14:29:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG, econ.TH パーマリンク