要約
マルチエージェント強化学習では、分散実行 (CTDE) 手法による集中トレーニングでは、通常、エージェントがローカルな観察に基づいて独立して意思決定を行うと想定されており、調整と相関のある共同ポリシーが得られない可能性があります。
トレーニング中に調整を明示的に奨励でき、相関する共同ポリシーを模倣するように個別のポリシーをトレーニングできます。
ただし、これは共同ポリシーと個別ポリシーの間の観察の不一致により \textit{非対称学習の失敗} を引き起こす可能性があります。
相関均衡の概念に触発されて、エージェントがポリシーを相関できるようにする AgentMixer と呼ばれる \textit{戦略修正} を導入します。
AgentMixer は、個々の部分的に監視可能なポリシーを結合して、完全に監視可能な共同ポリシーを非線形に結合します。
分散実行を可能にするために、\textit{Individual-Global-Consistency} を導入して、集中ポリシーと分散ポリシーの共同トレーニング中にモードの一貫性を保証し、AgentMixer が $\epsilon$ 近似の相関平衡に収束することを証明します。
マルチエージェント MuJoCo、SMAC-v2、Matrix Game、および Predator-Prey のベンチマークでは、AgentMixer は最先端の手法を上回るか、それに匹敵します。
要約(オリジナル)
In multi-agent reinforcement learning, centralized training with decentralized execution (CTDE) methods typically assume that agents make decisions based on their local observations independently, which may not lead to a correlated joint policy with coordination. Coordination can be explicitly encouraged during training and individual policies can be trained to imitate the correlated joint policy. However, this may lead to an \textit{asymmetric learning failure} due to the observation mismatch between the joint and individual policies. Inspired by the concept of correlated equilibrium, we introduce a \textit{strategy modification} called AgentMixer that allows agents to correlate their policies. AgentMixer combines individual partially observable policies into a joint fully observable policy non-linearly. To enable decentralized execution, we introduce \textit{Individual-Global-Consistency} to guarantee mode consistency during joint training of the centralized and decentralized policies and prove that AgentMixer converges to an $\epsilon$-approximate Correlated Equilibrium. In the Multi-Agent MuJoCo, SMAC-v2, Matrix Game, and Predator-Prey benchmarks, AgentMixer outperforms or matches state-of-the-art methods.
arxiv情報
| 著者 | Zhiyuan Li,Wenshuai Zhao,Lijun Wu,Joni Pajarinen |
| 発行日 | 2024-12-11 16:06:22+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google