Principal-Agent Reinforcement Learning

要約

契約は、利害の不一致にもかかわらず、またエージェントの行動を直接観察しなくても、プリンシパルがエージェントにタスクを委任できるようにする経済的枠組みです。
最新の強化学習設定の多くでは、利己的なエージェントは、プリンシパルから委任された複数段階のタスクを実行することを学習します。
私たちは、エージェントにインセンティブを与えるために契約を利用することの大きな可能性を探ります。
委任されたタスクを MDP としてモデル化し、プリンシパルが使用するコントラクトを学習し、エージェントがそれに応じて MDP ポリシーを学習する、プリンシパルとエージェントの間の確率ゲームを研究します。
我々は、プリンシパルの契約を最適化するための学習ベースのアルゴリズムを提示します。このアルゴリズムは、プリンシパルとエージェントのゲームのサブゲーム完全均衡に収束することが証明されています。
ディープ RL 実装により、未知の遷移ダイナミクスを持つ非常に大規模な MDP にメソッドを適用できます。
我々はアプローチを複数のエージェントに拡張し、エージェントの報酬への最小限の介入で標準的な逐次的社会的ジレンマを解決することへの関連性を実証します。

要約(オリジナル)

Contracts are the economic framework which allows a principal to delegate a task to an agent — despite misaligned interests, and even without directly observing the agent’s actions. In many modern reinforcement learning settings, self-interested agents learn to perform a multi-stage task delegated to them by a principal. We explore the significant potential of utilizing contracts to incentivize the agents. We model the delegated task as an MDP, and study a stochastic game between the principal and agent where the principal learns what contracts to use, and the agent learns an MDP policy in response. We present a learning-based algorithm for optimizing the principal’s contracts, which provably converges to the subgame-perfect equilibrium of the principal-agent game. A deep RL implementation allows us to apply our method to very large MDPs with unknown transition dynamics. We extend our approach to multiple agents, and demonstrate its relevance to resolving a canonical sequential social dilemma with minimal intervention to agent rewards.

arxiv情報

著者 Dima Ivanov,Paul Dütting,Inbal Talgam-Cohen,Tonghan Wang,David C. Parkes
発行日 2024-07-25 14:28:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, cs.MA パーマリンク