Safe and Robust Multi-Agent Reinforcement Learning for Connected Autonomous Vehicles under State Perturbations

要約

センシングおよび通信テクノロジーにより、コネクテッド自律走行車 (CAV) などのマルチエージェント システム向けの学習ベースの意思決定方法が強化されました。
ただし、既存の安全な強化学習ベースの手法のほとんどは、正確な状態情報を前提としています。
ノイズの多いセンサー測定や通信チャネルの脆弱性を考慮すると、CAV の状態が不確実な状況で安全要件を達成することは依然として困難です。
この研究では、さまざまな運転シナリオにおける CAV 向けに、堅牢な安全シールドを備えた堅牢なマルチエージェント近接ポリシー最適化 (SR-MAPPO) を提案します。
摂動または不確実な状態入力に対処するアプローチでは、堅牢な MARL アルゴリズムとコントロール バリア関数 (CBF) ベースの安全シールドの両方が使用されます。
ロバストなポリシーは、前者ではより高い下限報酬を追求するワーストケースの Q 関数正則化モジュールでトレーニングされますが、後者、つまりロバストな CBF 安全シールドは、衝突のない複雑な運転シナリオにおける CAV の無衝突制約を考慮します。
混乱した車両の状態情報。
堅牢性と安全性における SR-MAPPO の利点を検証し、CARLA シミュレータでのさまざまな運転および状態摂動シナリオの下でのベースラインと比較します。
SR-MAPPO ポリシーは、状態の混乱と接続されていない車両の危険な動作の両方によって脅かされた場合でも、より高い安全率と効率 (報酬) を維持することが検証されています。

要約(オリジナル)

Sensing and communication technologies have enhanced learning-based decision making methodologies for multi-agent systems such as connected autonomous vehicles (CAV). However, most existing safe reinforcement learning based methods assume accurate state information. It remains challenging to achieve safety requirement under state uncertainties for CAVs, considering the noisy sensor measurements and the vulnerability of communication channels. In this work, we propose a Robust Multi-Agent Proximal Policy Optimization with robust Safety Shield (SR-MAPPO) for CAVs in various driving scenarios. Both robust MARL algorithm and control barrier function (CBF)-based safety shield are used in our approach to cope with the perturbed or uncertain state inputs. The robust policy is trained with a worst-case Q function regularization module that pursues higher lower-bounded reward in the former, whereas the latter, i.e., the robust CBF safety shield accounts for CAVs’ collision-free constraints in complicated driving scenarios with even perturbed vehicle state information. We validate the advantages of SR-MAPPO in robustness and safety and compare it with baselines under different driving and state perturbation scenarios in CARLA simulator. The SR-MAPPO policy is verified to maintain higher safety rates and efficiency (reward) when threatened by both state perturbations and unconnected vehicles’ dangerous behaviors.

arxiv情報

著者 Zhili Zhang,Yanchao Sun,Furong Huang,Fei Miao
発行日 2023-09-20 04:34:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO パーマリンク