MAPPO-PIS: A Multi-Agent Proximal Policy Optimization Method with Prior Intent Sharing for CAVs’ Cooperative Decision-Making

要約

車車間(V2V)テクノロジーは、交通の流れの効率と安全性を向上させる大きな可能性を秘めています。
しかし、マルチエージェント システム、特に人間と機械が混在する複雑な合流領域における協調的な意思決定は、コネクテッド アンド 自律走行車 (CAV) にとって依然として困難です。
人間の調整の重要な側面であるインテント共有は、これらの意思決定の問題に対する効果的な解決策を提供する可能性がありますが、CAV でのその適用は十分に検討されていません。
この論文では、CAV 協調意思決定問題をマルチエージェント強化学習 (MARL) 問題としてモデル化する、インテント共有ベースの協調手法である事前インテント共有によるマルチエージェント近接ポリシー最適化 (MAPPO-PIS) を紹介します。
これには、意図生成モジュール (IGM) と安全強化モジュール (SEM) という 2 つの主要なモジュールの統合によるエージェントのポリシーのトレーニングと更新が含まれます。
IGM は、将来の複数のタイムステップにわたる CAV の意図された軌道を生成および配布するように特別に作成されています。
一方、SEM は、行われた決定の安全性を評価し、必要に応じて修正するという重要な役割を果たします。
私たちの方法を検証するために、人間と機械の混合交通流が存在する合流エリアが選択されます。
結果は、MAPPO-PIS がマルチエージェント システムにおける意思決定パフォーマンスを大幅に向上させ、安全性、効率性、全体的な交通システム パフォーマンスにおいて最先端のベースラインを上回っていることを示しています。
コードとビデオのデモは、\url{https://github.com/CCCC1dhcgd/A-MAPPO-PIS} にあります。

要約(オリジナル)

Vehicle-to-Vehicle (V2V) technologies have great potential for enhancing traffic flow efficiency and safety. However, cooperative decision-making in multi-agent systems, particularly in complex human-machine mixed merging areas, remains challenging for connected and autonomous vehicles (CAVs). Intent sharing, a key aspect of human coordination, may offer an effective solution to these decision-making problems, but its application in CAVs is under-explored. This paper presents an intent-sharing-based cooperative method, the Multi-Agent Proximal Policy Optimization with Prior Intent Sharing (MAPPO-PIS), which models the CAV cooperative decision-making problem as a Multi-Agent Reinforcement Learning (MARL) problem. It involves training and updating the agents’ policies through the integration of two key modules: the Intention Generator Module (IGM) and the Safety Enhanced Module (SEM). The IGM is specifically crafted to generate and disseminate CAVs’ intended trajectories spanning multiple future time-steps. On the other hand, the SEM serves a crucial role in assessing the safety of the decisions made and rectifying them if necessary. Merging area with human-machine mixed traffic flow is selected to validate our method. Results show that MAPPO-PIS significantly improves decision-making performance in multi-agent systems, surpassing state-of-the-art baselines in safety, efficiency, and overall traffic system performance. The code and video demo can be found at: \url{https://github.com/CCCC1dhcgd/A-MAPPO-PIS}.

arxiv情報

著者 Yicheng Guo,Jiaqi Liu,Rongjie Yu,Peng Hang,Jian Sun
発行日 2024-08-13 05:58:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク