XP-MARL: Auxiliary Prioritization in Multi-Agent Reinforcement Learning to Address Non-Stationarity

要約

非定常性は、マルチエージェント強化学習 (MARL) において根本的な課題を引き起こします。これは、エージェントがポリシーの学習と変更を同時に行うことから発生します。
これにより、個々のエージェントの観点から見て非定常な環境が作成され、多くの場合、最適ではない学習結果や、さらには収束しない学習結果がもたらされます。
我々は、協調的な設定でこの課題に対処するために補助的な優先順位付けで MARL を強化する、XP-MARL という名前のオープンソース フレームワークを提案します。
XP-MARL は、1) エージェントに優先順位を付け、優先順位の高いエージェントに最初にアクションを確立させることで学習プロセスが安定し、非定常性が軽減されるという仮説に基づいています。2) アクションの伝播と呼ばれる私たちが提案したメカニズムによって可能になり、優先順位が高いほど優先順位が高くなります。
エージェントが最初に行動し、そのアクションを伝達し、他のエージェントにとってより安定した環境を提供します。
さらに、XP-MARL は、事前定義またはヒューリスティックな優先度割り当てを使用する代わりに、補助的な MARL 問題を使用して優先度割り当てポリシーを学習し、共同学習スキームを実現します。
Connected and Automated Vehicles (CAV) を含む動作計画シナリオの実験では、XP-MARL がベースライン モデルの安全性を 84.4% 向上させ、ベースラインを 12.8% しか改善しない最先端のアプローチを上回るパフォーマンスを示しました。

コード: github.com/cas-lab-munich/sigmarl

要約(オリジナル)

Non-stationarity poses a fundamental challenge in Multi-Agent Reinforcement Learning (MARL), arising from agents simultaneously learning and altering their policies. This creates a non-stationary environment from the perspective of each individual agent, often leading to suboptimal or even unconverged learning outcomes. We propose an open-source framework named XP-MARL, which augments MARL with auxiliary prioritization to address this challenge in cooperative settings. XP-MARL is 1) founded upon our hypothesis that prioritizing agents and letting higher-priority agents establish their actions first would stabilize the learning process and thus mitigate non-stationarity and 2) enabled by our proposed mechanism called action propagation, where higher-priority agents act first and communicate their actions, providing a more stationary environment for others. Moreover, instead of using a predefined or heuristic priority assignment, XP-MARL learns priority-assignment policies with an auxiliary MARL problem, leading to a joint learning scheme. Experiments in a motion-planning scenario involving Connected and Automated Vehicles (CAVs) demonstrate that XP-MARL improves the safety of a baseline model by 84.4% and outperforms a state-of-the-art approach, which improves the baseline by only 12.8%. Code: github.com/cas-lab-munich/sigmarl

arxiv情報

著者 Jianye Xu,Omar Sobhy,Bassam Alrifaee
発行日 2024-09-18 10:10:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.MA, cs.RO パーマリンク