Effective Multi-Agent Deep Reinforcement Learning Control with Relative Entropy Regularization

要約

この論文では、複数のエージェントによって制御されるさまざまなシナリオにおける限られた能力とサンプル効率の問題に取り組むために、新しいマルチエージェント強化学習 (MARL) アプローチであるマルチエージェント連続動的ポリシー勾配 (MACDPP) が提案されました。
Actor-Critic (AC) 構造を備えた集中トレーニングと分散実行 (CTDE) フレームワークに相対エントロピー正則化を導入することで、複数のエージェントのポリシー更新の不一致を軽減します。
マルチエージェントの協力および競合タスク、および OpenAI ベンチマークやロボット アーム操作を含む従来の制御タスクによって評価された MACDPP は、関連するマルチエージェントおよび広く実装されているシグナル エージェント ベースラインの両方と比較して、学習能力とサンプル効率において大幅な優位性を実証し、そのため可能性を拡大します。
困難な制御シナリオを効果的に学習する際の MARL の活用。

要約(オリジナル)

In this paper, a novel Multi-agent Reinforcement Learning (MARL) approach, Multi-Agent Continuous Dynamic Policy Gradient (MACDPP) was proposed to tackle the issues of limited capability and sample efficiency in various scenarios controlled by multiple agents. It alleviates the inconsistency of multiple agents’ policy updates by introducing the relative entropy regularization to the Centralized Training with Decentralized Execution (CTDE) framework with the Actor-Critic (AC) structure. Evaluated by multi-agent cooperation and competition tasks and traditional control tasks including OpenAI benchmarks and robot arm manipulation, MACDPP demonstrates significant superiority in learning capability and sample efficiency compared with both related multi-agent and widely implemented signal-agent baselines and therefore expands the potential of MARL in effectively learning challenging control scenarios.

arxiv情報

著者 Chenyang Miao,Yunduan Cui,Huiyun Li,Xinyu Wu
発行日 2023-09-26 07:38:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY パーマリンク