Heterogeneous-Agent Reinforcement Learning

要約

インテリジェントなマシン間の協力の必要性により、AI 研究において協調的なマルチエージェント強化学習 (MARL) が普及しました。
しかし、多くの研究努力はエージェント間のパラメータ共有に大きく依存しており、同種のエージェント設定のみに限定され、トレーニングの不安定性や収束保証の欠如につながります。
一般的な異種エージェント設定で効果的な連携を実現するために、前述の問題を解決する異種エージェント強化学習 (HARL) アルゴリズムを提案します。
私たちの発見の中心となるのは、マルチエージェント利点分解補題と逐次更新スキームです。
これらに基づいて、証明可能で正しい異種エージェント信頼領域学習 (HATRL) を開発し、扱いやすい近似によって HATRPO と HAPPO を導出します。
さらに、HATRPO と HAPPO の理論的保証を強化し、協調的な MARL アルゴリズム設計のための一般的なテンプレートを提供する、異種エージェント ミラー学習 (HAML) と呼ばれる新しいフレームワークを発見しました。
HAML から派生したすべてのアルゴリズムが本質的に結合リターンの単調改善とナッシュ均衡への収束を享受できることを証明します。
その当然の結果として、HAML は、HATRPO と HAPPO に加えて、HAA2C、HADDPG、HATD3 などのより新しいアルゴリズムを検証し、これらは一般に既存の対応する MA よりも優れたパフォーマンスを発揮します。
私たちは 6 つの困難なベンチマークで HARL アルゴリズムを包括的にテストし、MAPPO や QMIX などの強力なベースラインと比較して、異種エージェントの調整における優れた有効性と安定性を実証します。

要約(オリジナル)

The necessity for cooperation among intelligent machines has popularised cooperative multi-agent reinforcement learning (MARL) in AI research. However, many research endeavours heavily rely on parameter sharing among agents, which confines them to only homogeneous-agent setting and leads to training instability and lack of convergence guarantees. To achieve effective cooperation in the general heterogeneous-agent setting, we propose Heterogeneous-Agent Reinforcement Learning (HARL) algorithms that resolve the aforementioned issues. Central to our findings are the multi-agent advantage decomposition lemma and the sequential update scheme. Based on these, we develop the provably correct Heterogeneous-Agent Trust Region Learning (HATRL), and derive HATRPO and HAPPO by tractable approximations. Furthermore, we discover a novel framework named Heterogeneous-Agent Mirror Learning (HAML), which strengthens theoretical guarantees for HATRPO and HAPPO and provides a general template for cooperative MARL algorithmic designs. We prove that all algorithms derived from HAML inherently enjoy monotonic improvement of joint return and convergence to Nash Equilibrium. As its natural outcome, HAML validates more novel algorithms in addition to HATRPO and HAPPO, including HAA2C, HADDPG, and HATD3, which generally outperform their existing MA-counterparts. We comprehensively test HARL algorithms on six challenging benchmarks and demonstrate their superior effectiveness and stability for coordinating heterogeneous agents compared to strong baselines such as MAPPO and QMIX.

arxiv情報

著者 Yifan Zhong,Jakub Grudzien Kuba,Xidong Feng,Siyi Hu,Jiaming Ji,Yaodong Yang
発行日 2023-12-28 10:18:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク