要約
マルチエージェント強化学習 (MARL) とゲーム理論では、エージェントは繰り返し対話し、新しいデータが到着すると戦略を修正し、一連の戦略プロファイルを生成します。
この論文では、ある期間で最もよく応答したエージェントが次の期間で戦略を切り替えない、強化学習におけるポリシー更新に触発されたペアワイズ制約を満たす一連の戦略を研究します。
この制約は、最適化エージェントが戦略を切り替えないことを要求するだけで、非最適化エージェントをまったく制約しないため、探索が可能になります。
この特性を持つシーケンスは満足パスと呼ばれ、多くの MARL アルゴリズムで自然に発生します。
戦略力学に関する基本的な質問は次のとおりです。特定のゲームと初期戦略プロファイルに対して、均衡で終了する満足のいくパスを構築することは常に可能ですか?
この問題の解決は、MARL アルゴリズムのクラスの機能または制限に影響を及ぼします。
正規形式のゲームについては、この質問に肯定的に答えます。
私たちの分析は、報酬の低下する戦略的アップデートが、プレイを満足のいく道筋に沿って均衡に導く鍵であるという直観に反する洞察を明らかにしました。
要約(オリジナル)
In multi-agent reinforcement learning (MARL) and game theory, agents repeatedly interact and revise their strategies as new data arrives, producing a sequence of strategy profiles. This paper studies sequences of strategies satisfying a pairwise constraint inspired by policy updating in reinforcement learning, where an agent who is best responding in one period does not switch its strategy in the next period. This constraint merely requires that optimizing agents do not switch strategies, but does not constrain the non-optimizing agents in any way, and thus allows for exploration. Sequences with this property are called satisficing paths, and arise naturally in many MARL algorithms. A fundamental question about strategic dynamics is such: for a given game and initial strategy profile, is it always possible to construct a satisficing path that terminates at an equilibrium? The resolution of this question has implications about the capabilities or limitations of a class of MARL algorithms. We answer this question in the affirmative for normal-form games. Our analysis reveals a counterintuitive insight that reward deteriorating strategic updates are key to driving play to equilibrium along a satisficing path.
arxiv情報
著者 | Bora Yongacoglu,Gürdal Arslan,Lacra Pavel,Serdar Yüksel |
発行日 | 2024-10-01 17:33:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google