Safe, Efficient, Comfort, and Energy-saving Automated Driving through Roundabout Based on Deep Reinforcement Learning

要約

ラウンドアバウトでの交通シナリオは、自動運転にとってかなりの複雑さをもたらします。
考えられるすべてのシナリオを状態空間に手動でマッピングすることは、多大な労力と困難を伴います。
環境との相互作用から学習する機能を備えた深層強化学習 (DRL) は、このような自動運転モデル​​をトレーニングするための有望なソリューションとして浮上しています。
この研究では、ロータリーでの自動運転車両の運転を指示するためのさまざまな DRL アルゴリズム、すなわち Deep Deterministic Policy Gradient (DDPG)、Proximal Policy Optimization (PPO)、Trust Regional Policy Optimization (TRPO) を調査、採用、実装しています。
運転状態空間、行動空間、報酬関数を設計する。
報酬関数では、安全性、効率、快適さ、エネルギー消費が現実世界の要件に合わせて考慮されます。
テストされた 3 つの DRL アルゴリズムはすべて、自動運転車両がロータリーを通過できるようにすることに成功しました。
これらのアルゴリズムのパフォーマンスを総合的に評価するために、この研究では、安全性、効率性、快適性レベルなどの複数の指標を考慮した評価方法を確立します。
これらの評価指標を比較検討するために、分析階層プロセスを採用した手法も開発されています。
さまざまなテスト シナリオの実験結果から、TRPO アルゴリズムは安全性と効率の点で DDPG および PPO よりも優れており、快適さの点では PPO が最高のパフォーマンスを発揮することが明らかになりました。
最後に、他の運転シナリオに関するモデルの適応性と堅牢性を検証するために、この研究では、TRPO によってトレーニングされたモデルを、高速道路の運転や合流などのさまざまなテスト シナリオにも展開します。
実験結果は、環状交差点の運転シナリオのみでトレーニングされた TRPO モデルが高速道路の運転および合流シナリオである程度の習熟度を示すことを示しています。
この研究は、実際の交通環境における DRL を使用した自動運転の適用のための基盤を提供します。

要約(オリジナル)

Traffic scenarios in roundabouts pose substantial complexity for automated driving. Manually mapping all possible scenarios into a state space is labor-intensive and challenging. Deep reinforcement learning (DRL) with its ability to learn from interacting with the environment emerges as a promising solution for training such automated driving models. This study explores, employs, and implements various DRL algorithms, namely Deep Deterministic Policy Gradient (DDPG), Proximal Policy Optimization (PPO), and Trust Region Policy Optimization (TRPO) to instruct automated vehicles’ driving through roundabouts. The driving state space, action space, and reward function are designed. The reward function considers safety, efficiency, comfort, and energy consumption to align with real-world requirements. All three tested DRL algorithms succeed in enabling automated vehicles to drive through the roundabout. To holistically evaluate the performance of these algorithms, this study establishes an evaluation methodology considering multiple indicators such as safety, efficiency, and comfort level. A method employing the Analytic Hierarchy Process is also developed to weigh these evaluation indicators. Experimental results on various testing scenarios reveal that the TRPO algorithm outperforms DDPG and PPO in terms of safety and efficiency, and PPO performs best in terms of comfort level. Lastly, to verify the model’s adaptability and robustness regarding other driving scenarios, this study also deploys the model trained by TRPO to a range of different testing scenarios, e.g., highway driving and merging. Experimental results demonstrate that the TRPO model trained on only roundabout driving scenarios exhibits a certain degree of proficiency in highway driving and merging scenarios. This study provides a foundation for the application of automated driving with DRL in real traffic environments.

arxiv情報

著者 Henan Yuan,Penghui Li,Bart van Arem,Liujiang Kang,Yongqi Dong
発行日 2023-06-20 11:39:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY パーマリンク