Delay-Aware Multi-Agent Reinforcement Learning for Cooperative Adaptive Cruise Control with Model-based Stability Enhancement

要約

協調型アダプティブ クルーズ コントロール (CACC) は、コネクテッド自動運転車 (CAV) システム内で車両の隊列移動を調整するための典型的な制御戦略であり、交通効率を大幅に向上させ、エネルギー消費を削減します。
近年、効率性と柔軟性の点で大きな利点があるため、強化学習 (RL) などのデータ駆動型の手法がこのタスクに対処するために採用されています。
ただし、現実の CACC システムでよく発生する遅延の問題は、現在の RL ベースのアプローチではほとんど考慮されていません。
この問題に取り組むために、我々は、CACC の安全で安定した制御を実現することを目的とした遅延認識マルチエージェント強化学習 (DAMARL) フレームワークを提案します。
マルチエージェント遅延認識マルコフ意思決定プロセス (MADA-MDP) を使用して意思決定プロセス全体をモデル化し、CACC 小隊の分散制御のための分散実行 (CTDE) MARL フレームワークによる集中トレーニングを開発します。
CAV コミュニケーションと意思決定のパフォーマンスを向上させるために、アテンション メカニズムが統合されたポリシー ネットワークが導入されています。
さらに、小隊の安定性をさらに確保するために、速度最適化モデルベースのアクション フィルターが組み込まれています。
さまざまな遅延条件と小隊サイズにわたる実験結果は、小隊の安全性、安定性、全体的なパフォーマンスの点で、私たちのアプローチがベースラインの方法よりも常に優れていることを示しています。

要約(オリジナル)

Cooperative Adaptive Cruise Control (CACC) represents a quintessential control strategy for orchestrating vehicular platoon movement within Connected and Automated Vehicle (CAV) systems, significantly enhancing traffic efficiency and reducing energy consumption. In recent years, the data-driven methods, such as reinforcement learning (RL), have been employed to address this task due to their significant advantages in terms of efficiency and flexibility. However, the delay issue, which often arises in real-world CACC systems, is rarely taken into account by current RL-based approaches. To tackle this problem, we propose a Delay-Aware Multi-Agent Reinforcement Learning (DAMARL) framework aimed at achieving safe and stable control for CACC. We model the entire decision-making process using a Multi-Agent Delay-Aware Markov Decision Process (MADA-MDP) and develop a centralized training with decentralized execution (CTDE) MARL framework for distributed control of CACC platoons. An attention mechanism-integrated policy network is introduced to enhance the performance of CAV communication and decision-making. Additionally, a velocity optimization model-based action filter is incorporated to further ensure the stability of the platoon. Experimental results across various delay conditions and platoon sizes demonstrate that our approach consistently outperforms baseline methods in terms of platoon safety, stability and overall performance.

arxiv情報

著者 Jiaqi Liu,Ziran Wang,Peng Hang,Jian Sun
発行日 2024-04-24 07:19:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク