要約
この作業では、\ textbf {loc} ality based \ textbf {fac} torized \ textbf {m} ulti-agent \ textbf {a} ctor- \ textbf {c} ritic(loc-facmac)と呼ばれる新しい協同組合マルチエージェント補強学習方法を紹介します。
FACMACなどの既存の最先端のアルゴリズムは、分散型システムにおける個々のロボットのアクションの品質を正確に反映していないグローバルな報酬情報に依存しています。
地域の概念を批評家の学習に統合します。批評家学習では、トレーニング中に強く関連するロボットがパーティションを形成します。
同じパーティション内のロボットは、相互に大きな影響を与え、より正確なポリシー評価につながります。
さらに、ロボット間の関係をキャプチャする依存書グラフを構築し、パーティションプロセスを促進します。
このアプローチは、次元の呪いを軽減し、ロボットが無関係な情報を使用することを防ぎます。
私たちの方法は、ローカルの報酬に焦点を当て、パーティションベースの学習を活用してトレーニングの効率とパフォーマンスを向上させることにより、既存のアルゴリズムを改善します。
廊下、マルチカートポール、および境界協力的ナビゲーションの3つの環境でのloc-Facmacのパフォーマンスを評価します。
パフォーマンスに対するパーティションサイズの影響を調査し、結果をLOMAQ、FACMAC、QMIXなどのベースラインMARLアルゴリズムと比較します。
実験では、局所構造が適切に定義されている場合、loc-facmacがこれらのベースラインアルゴリズムを108 \%まで上回ることを明らかにしており、俳優criticフレームワークのローカリティ構造を活用することでMARLのパフォーマンスが向上することを示しています。
要約(オリジナル)
In this work, we present a novel cooperative multi-agent reinforcement learning method called \textbf{Loc}ality based \textbf{Fac}torized \textbf{M}ulti-Agent \textbf{A}ctor-\textbf{C}ritic (Loc-FACMAC). Existing state-of-the-art algorithms, such as FACMAC, rely on global reward information, which may not accurately reflect the quality of individual robots’ actions in decentralized systems. We integrate the concept of locality into critic learning, where strongly related robots form partitions during training. Robots within the same partition have a greater impact on each other, leading to more precise policy evaluation. Additionally, we construct a dependency graph to capture the relationships between robots, facilitating the partitioning process. This approach mitigates the curse of dimensionality and prevents robots from using irrelevant information. Our method improves existing algorithms by focusing on local rewards and leveraging partition-based learning to enhance training efficiency and performance. We evaluate the performance of Loc-FACMAC in three environments: Hallway, Multi-cartpole, and Bounded-Cooperative-Navigation. We explore the impact of partition sizes on the performance and compare the result with baseline MARL algorithms such as LOMAQ, FACMAC, and QMIX. The experiments reveal that, if the locality structure is defined properly, Loc-FACMAC outperforms these baseline algorithms up to 108\%, indicating that exploiting the locality structure in the actor-critic framework improves the MARL performance.
arxiv情報
著者 | Chak Lam Shek,Amrit Singh Bedi,Anjon Basak,Ellen Novoseller,Nick Waytowich,Priya Narayanan,Dinesh Manocha,Pratap Tokekar |
発行日 | 2025-03-24 16:00:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google