Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts

要約

AI の導入の増加により、インターネットの将来の状況が形成され、AI エージェントの統合エコシステムとなる予定です。
AI エージェント間の相互作用を調整するには、個人の利益と社会福祉の間の緊張を調和させる、分散型で自立的なメカニズムが必要です。
この論文では、強化学習と経済学のプリンシパルエージェント理論を相乗させることで、この課題に取り組みます。
個別に考えると、前者は非現実的な介入の自由を許可しますが、後者は連続した設定で拡張するのに苦労します。
それらを組み合わせることで、両方の長所を実現できます。
私たちは、エージェントの行動の観察可能な結果に基づいてプリンシパルによる支払いを指定する一連の契約を使用して、プリンシパルがマルコフ決定プロセス (MDP) でエージェントをガイドするフレームワークを提案します。
プリンシパルとエージェントのポリシーを繰り返し最適化するメタアルゴリズムを提示して分析し、プリンシパルの Q 関数の短縮演算子との等価性と、サブゲーム完全均衡への収束を示します。
次に、ディープ Q ラーニングを使用してアルゴリズムを拡張し、理論的に、またランダムに生成されたバイナリ ゲーム ツリーを使用した実験を通じて、近似誤差が存在する場合のその収束を分析します。
私たちのフレームワークを複数のエージェントに拡張し、私たちの方法論を組み合わせコインゲームに適用します。
このマルチエージェントの逐次的な社会的ジレンマに対処することは、私たちのアプローチをより複雑な現実世界のインスタンスに拡張するための有望な第一歩となります。

要約(オリジナル)

The increasing deployment of AI is shaping the future landscape of the internet, which is set to become an integrated ecosystem of AI agents. Orchestrating the interaction among AI agents necessitates decentralized, self-sustaining mechanisms that harmonize the tension between individual interests and social welfare. In this paper we tackle this challenge by synergizing reinforcement learning with principal-agent theory from economics. Taken separately, the former allows unrealistic freedom of intervention, while the latter struggles to scale in sequential settings. Combining them achieves the best of both worlds. We propose a framework where a principal guides an agent in a Markov Decision Process (MDP) using a series of contracts, which specify payments by the principal based on observable outcomes of the agent’s actions. We present and analyze a meta-algorithm that iteratively optimizes the policies of the principal and agent, showing its equivalence to a contraction operator on the principal’s Q-function, and its convergence to subgame-perfect equilibrium. We then scale our algorithm with deep Q-learning and analyze its convergence in the presence of approximation error, both theoretically and through experiments with randomly generated binary game-trees. Extending our framework to multiple agents, we apply our methodology to the combinatorial Coin Game. Addressing this multi-agent sequential social dilemma is a promising first step toward scaling our approach to more complex, real-world instances.

arxiv情報

著者 Dima Ivanov,Paul Dütting,Inbal Talgam-Cohen,Tonghan Wang,David C. Parkes
発行日 2024-10-07 16:46:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, cs.MA パーマリンク