Safe Multi-Agent Reinforcement Learning with Bilevel Optimization in Autonomous Driving

要約

MARL の安全性の確保は、特に自動運転などの実世界のアプリケーションに展開する場合に、重要な課題として浮上します。
この課題に対処するために、従来の安全な MARL 手法は、安全性リスク値を最小限に抑えることを目的として、安全性に関する考慮事項を組み込むように MARL アプローチを拡張します。
ただし、これらの安全な MARL アルゴリズムは、特に動的に複雑な環境では、他のエージェントをモデル化できないことが多く、収束保証がありません。
この研究では、収束解析が提供される 2 レベル最適化を備えた Stackelberg モデルに基づいた安全な MARL 手法を提案します。
理論分析に基づいて、自動運転アプリケーションにおける MARL の意思決定を促進するように設計された、制約付きシュタッケルベルグ Q ラーニング (CSQ) と制約付きシュタッケルベルク マルチエージェントディープ決定論的ポリシー勾配 (CS-MADDPG) という 2 つの実用的なアルゴリズムを開発しました。
アルゴリズムの有効性を評価するために、安全な MARL 自動運転ベンチマークを開発し、合流、環状交差点、交差点、競馬場などの困難な自動運転シナリオで実験を実施しました。
実験結果は、報酬と安全性のパフォーマンスに関して、当社のアルゴリズム CSQ および CS-MADDPG が、Bi-AC、MACPO、MAPPO-L などのいくつかの強力な MARL ベースラインよりも優れていることを示しています。
デモとソース コードは、{https://github.com/SafeRL-Lab/Safe-MARL-in-Autonomous-Driving.git} で入手できます。

要約(オリジナル)

Ensuring safety in MARL, particularly when deploying it in real-world applications such as autonomous driving, emerges as a critical challenge. To address this challenge, traditional safe MARL methods extend MARL approaches to incorporate safety considerations, aiming to minimize safety risk values. However, these safe MARL algorithms often fail to model other agents and lack convergence guarantees, particularly in dynamically complex environments. In this study, we propose a safe MARL method grounded in a Stackelberg model with bi-level optimization, for which convergence analysis is provided. Derived from our theoretical analysis, we develop two practical algorithms, namely Constrained Stackelberg Q-learning (CSQ) and Constrained Stackelberg Multi-Agent Deep Deterministic Policy Gradient (CS-MADDPG), designed to facilitate MARL decision-making in autonomous driving applications. To evaluate the effectiveness of our algorithms, we developed a safe MARL autonomous driving benchmark and conducted experiments on challenging autonomous driving scenarios, such as merges, roundabouts, intersections, and racetracks. The experimental results indicate that our algorithms, CSQ and CS-MADDPG, outperform several strong MARL baselines, such as Bi-AC, MACPO, and MAPPO-L, regarding reward and safety performance. The demos and source code are available at {https://github.com/SafeRL-Lab/Safe-MARL-in-Autonomous-Driving.git}.

arxiv情報

著者 Zhi Zheng,Shangding Gu
発行日 2024-05-28 14:15:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク