Environment Complexity and Nash Equilibria in a Sequential Social Dilemma

要約

マルチエージェント強化学習 (MARL) 手法は、ゼロサム ゲームやポジティブサム ゲームでは効果的ですが、全体的に最適な結果を達成するために協力が不可欠な総和ゲームでは、次善の結果をもたらすことがよくあります。
マトリックス ゲームの社会的ジレンマは、協力、リスク、信頼などの総和相互作用の重要な側面を抽象化していますが、現実世界のシナリオに特徴的な時間的および空間的ダイナミクスをモデル化できません。
これに応えて、私たちの研究はマトリックス ゲームの社会的ジレンマをより複雑で高次元の MARL 環境に拡張します。
私たちは、スタッグ ハントのジレンマのグリッドワールド実装を適応させて、ワンショット マトリックス ゲームの意思決定空間により厳密に一致させると同時に、環境の複雑性も導入します。
私たちの調査結果は、複雑さが増すにつれて、これらの環境で訓練された MARL エージェントは次善の戦略に収束し、マトリックス ゲームで見られるリスク優勢のナッシュ均衡戦略と一致することを示しています。
私たちの研究は、高次元のゲーム理論的な MARL 環境で最適な結果を達成する際の環境の複雑さの影響を浮き彫りにしています。

要約(オリジナル)

Multi-agent reinforcement learning (MARL) methods, while effective in zero-sum or positive-sum games, often yield suboptimal outcomes in general-sum games where cooperation is essential for achieving globally optimal outcomes. Matrix game social dilemmas, which abstract key aspects of general-sum interactions, such as cooperation, risk, and trust, fail to model the temporal and spatial dynamics characteristic of real-world scenarios. In response, our study extends matrix game social dilemmas into more complex, higher-dimensional MARL environments. We adapt a gridworld implementation of the Stag Hunt dilemma to more closely match the decision-space of a one-shot matrix game while also introducing variable environment complexity. Our findings indicate that as complexity increases, MARL agents trained in these environments converge to suboptimal strategies, consistent with the risk-dominant Nash equilibria strategies found in matrix games. Our work highlights the impact of environment complexity on achieving optimal outcomes in higher-dimensional game-theoretic MARL environments.

arxiv情報

著者 Mustafa Yasir,Andrew Howes,Vasilios Mavroudis,Chris Hicks
発行日 2024-08-08 16:16:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.MA パーマリンク