Contracting with a Learning Agent

要約

現実の契約関係の多くは、プリンシパルエージェント理論の中心となるクリーンで静的なモデルとは完全に異なります。
通常、それらはプリンシパルとエージェントの間で繰り返される戦略的なやり取りを含み、不確実性の下で時間をかけて行われます。
理論的には魅力的ですが、プレーヤーが実際に複雑な動的戦略を使用することはめったになく、多くの場合、学習を通じて複雑さを回避し、不確実性にアプローチすることを好みます。
私たちは、後悔のない結果を達成したエージェントに焦点を当てて、学習エージェントとの反復契約の研究を開始します。
no-regret エージェントに対する最適化は、一般的なゲームにおける既知の未解決の問題です。
私たちは、複数のアクションの中からエージェントが選択することが成功/失敗につながる、正規のコントラクト設定でこの問題に対する最適な解決策を達成します。
このソリューションの構造は驚くほど単純です。一部の $\alpha > 0$ については、最初にエージェントにスカラー $\alpha$ の線形コントラクトを提供し、次にスカラー $0$ の線形コントラクトの提供に切り替えます。
このスイッチにより、エージェントはアクション スペース内を「自由落下」し、この間、プリンシパルにはゼロ以外の報酬がゼロコストで提供されます。
明らかにエージェントを搾取しているように見えますが、この動的契約は、最良の静的契約と比較して、\emph{両方}のプレイヤーの利益を高めることができます。
私たちの結果は、成功/失敗を超えて、プリンシパルが動的に再スケールする任意の非線形契約に一般化します。
最後に、我々は時間軸の知識に対する結果の依存性を定量化し、学習エージェントに対する戦略の研究においてこの考慮事項に初めて取り組んだ。

要約(オリジナル)

Many real-life contractual relations differ completely from the clean, static model at the heart of principal-agent theory. Typically, they involve repeated strategic interactions of the principal and agent, taking place under uncertainty and over time. While appealing in theory, players seldom use complex dynamic strategies in practice, often preferring to circumvent complexity and approach uncertainty through learning. We initiate the study of repeated contracts with a learning agent, focusing on agents who achieve no-regret outcomes. Optimizing against a no-regret agent is a known open problem in general games; we achieve an optimal solution to this problem for a canonical contract setting, in which the agent’s choice among multiple actions leads to success/failure. The solution has a surprisingly simple structure: for some $\alpha > 0$, initially offer the agent a linear contract with scalar $\alpha$, then switch to offering a linear contract with scalar $0$. This switch causes the agent to “free-fall” through their action space and during this time provides the principal with non-zero reward at zero cost. Despite apparent exploitation of the agent, this dynamic contract can leave \emph{both} players better off compared to the best static contract. Our results generalize beyond success/failure, to arbitrary non-linear contracts which the principal rescales dynamically. Finally, we quantify the dependence of our results on knowledge of the time horizon, and are the first to address this consideration in the study of strategizing against learning agents.

arxiv情報

著者 Guru Guruganesh,Yoav Kolumbus,Jon Schneider,Inbal Talgam-Cohen,Emmanouil-Vasileios Vlatakis-Gkaragkounis,Joshua R. Wang,S. Matthew Weinberg
発行日 2024-01-29 14:53:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG, econ.TH パーマリンク