Formal Contracts Mitigate Social Dilemmas in Multi-Agent RL

要約

マルチエージェント強化学習 (MARL) は、共通の環境で独立して動作する自律エージェントをトレーニングするための強力なツールです。
ただし、個人のインセンティブとグループのインセンティブが異なる場合、最適ではない行動が発生する可能性があります。
人間はこれらの社会的ジレンマを解決する能力に優れています。
MARL では、利己的なエージェントでこのような協力的な行動を再現することは未解決の問題です。
この研究では、MARL のエージェント間で異なるインセンティブを克服するために、経済学から正式な契約のアイデアを利用します。
我々は、エージェントが事前に指定された条件下で拘束力のある報酬の移転に自発的に同意するマルコフ ゲームの拡張を提案します。
私たちの貢献は理論的かつ実証的です。
まず、この拡張により、十分に豊富な契約空間が与えられた場合、すべての完全に観察可能なマルコフ ゲームのすべてのサブゲーム完全均衡が社会的に最適な動作を示すことを示します。
次に、一般的な契約空間について、たとえ部分的な観察可能性の下でも、より豊かな契約空間がより高い福祉につながることを示します。
したがって、契約空間の設計は、探査と開発のトレードオフを解決し、インセンティブの問題を回避します。
理論的分析を実験で補完します。
契約拡張における探索の問題は、多目的強化学習にヒントを得たトレーニング方法論である多目的契約拡張学習 (MOCA) を使用して軽減されます。
私たちは、静的な 1 手のゲームだけでなく、トラフィック、汚染管理、および共通プール リソース管理をシミュレートする動的ドメインでも方法論をテストします。

要約(オリジナル)

Multi-agent Reinforcement Learning (MARL) is a powerful tool for training autonomous agents acting independently in a common environment. However, it can lead to sub-optimal behavior when individual incentives and group incentives diverge. Humans are remarkably capable at solving these social dilemmas. It is an open problem in MARL to replicate such cooperative behaviors in selfish agents. In this work, we draw upon the idea of formal contracting from economics to overcome diverging incentives between agents in MARL. We propose an augmentation to a Markov game where agents voluntarily agree to binding transfers of reward, under pre-specified conditions. Our contributions are theoretical and empirical. First, we show that this augmentation makes all subgame-perfect equilibria of all Fully Observable Markov Games exhibit socially optimal behavior, given a sufficiently rich space of contracts. Next, we show that for general contract spaces, and even under partial observability, richer contract spaces lead to higher welfare. Hence, contract space design solves an exploration-exploitation tradeoff, sidestepping incentive issues. We complement our theoretical analysis with experiments. Issues of exploration in the contracting augmentation are mitigated using a training methodology inspired by multi-objective reinforcement learning: Multi-Objective Contract Augmentation Learning (MOCA). We test our methodology in static, single-move games, as well as dynamic domains that simulate traffic, pollution management and common pool resource management.

arxiv情報

著者 Andreas A. Haupt,Phillip J. K. Christoffersen,Mehul Damani,Dylan Hadfield-Menell
発行日 2024-01-29 16:37:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.MA, econ.TH パーマリンク