要約
マルチエージェント強化学習(MARL)タスクは、分散型実行(CTDE)フレームワークを使用した集中トレーニングを利用します。
Qmixは、グローバルバリュー関数からローカルバリュー関数を導き出すためのクレジット割り当て関数を学習する成功したCTDEメソッドです。
ただし、QMIXは探査戦略が不十分であることを妨げられています。
最大エントロピー補強学習(RL)は、確率的ポリシーを通じてより良い調査を促進しますが、QMIXのクレジット割り当てプロセスは最大エントロピー目標と分散化された実行要件と競合し、最大エントロピーRLに適していません。
この論文では、最大エントロピーRLフレームワーク内に追加のローカルQ値学習方法を組み込むことにより、QMIXの強化を提案します。
私たちのアプローチは、ローカルQ値の推定値を制約して、すべてのアクションの正しい順序を維持します。
QMIX値関数の単調性により、これらの更新により、局所的に最適なアクションがグローバルに最適なアクションと一致することが保証されます。
理論的には、最適なソリューションへの方法の単調な改善と収束を証明します。
実験的に、マトリックスゲーム、マルチエージェント粒子環境のアルゴリズムを検証し、SMAC-V2で最先端のパフォーマンスを実証します。
要約(オリジナル)
Multi-agent reinforcement learning (MARL) tasks often utilize a centralized training with decentralized execution (CTDE) framework. QMIX is a successful CTDE method that learns a credit assignment function to derive local value functions from a global value function, defining a deterministic local policy. However, QMIX is hindered by its poor exploration strategy. While maximum entropy reinforcement learning (RL) promotes better exploration through stochastic policies, QMIX’s process of credit assignment conflicts with the maximum entropy objective and the decentralized execution requirement, making it unsuitable for maximum entropy RL. In this paper, we propose an enhancement to QMIX by incorporating an additional local Q-value learning method within the maximum entropy RL framework. Our approach constrains the local Q-value estimates to maintain the correct ordering of all actions. Due to the monotonicity of the QMIX value function, these updates ensure that locally optimal actions align with globally optimal actions. We theoretically prove the monotonic improvement and convergence of our method to an optimal solution. Experimentally, we validate our algorithm in matrix games, Multi-Agent Particle Environment and demonstrate state-of-the-art performance in SMAC-v2.
arxiv情報
著者 | Wentse Chen,Shiyu Huang,Jeff Schneider |
発行日 | 2025-02-27 17:16:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google