SECRM-2D: RL-Based Efficient and Comfortable Route-Following Autonomous Driving with Analytic Safety Guarantees

要約

過去 10 年にわたり、自動運転システムへの関心が高まっています。
強化学習 (RL) は、効率性、快適性、安定性などの基準の組み合わせを直接最適化できるため、自動運転コントローラーのトレーニングに大きな期待を寄せています。
ただし、RL ベースのコントローラーは通常、安全性の保証を提供していないため、実際の展開への準備が疑問視されています。
本稿では、効率と快適性の最適化を両立し、一定ルートを走行するRL自動運転コントローラ(縦横両用)であるSECRM-2D(車線変更を伴う安全・効率的・快適なRLベース走行モデル)を提案する。
一方で、分析上の厳しい安全性制約が課せられます。
前述の安全上の制約は、先頭車両が急ブレーキをかけた場合に、後続車両は衝突を回避できる十分な車間距離を確保しなければならないという基準から導出されます。
高速道路の運転、出口、合流、緊急ブレーキなどの模擬テスト シナリオで、いくつかの学習ベースラインと非学習ベースラインに対して SECRM-2D を評価します。
私たちの結果は、以前に公開された代表的な RL AV コントローラーは、安全目標を最適化している場合でも、トレーニングとテストの両方でクラッシュする可能性があることを確認しています。
対照的に、当社のコントローラー SECRM-2D は、トレーニングとテストの両方でクラッシュを回避することに成功し、効率と快適さの基準を基準よりも改善し、規定のルートをより忠実にたどります。
さらに、SECRM-2D 車両の集合体の縦方向の定常状態について理論的に十分な理解が得られます。

要約(オリジナル)

Over the last decade, there has been increasing interest in autonomous driving systems. Reinforcement Learning (RL) shows great promise for training autonomous driving controllers, being able to directly optimize a combination of criteria such as efficiency comfort, and stability. However, RL- based controllers typically offer no safety guarantees, making their readiness for real deployment questionable. In this paper, we propose SECRM-2D (the Safe, Efficient and Comfortable RL- based driving Model with Lane-Changing), an RL autonomous driving controller (both longitudinal and lateral) that balances optimization of efficiency and comfort and follows a fixed route, while being subject to hard analytic safety constraints. The aforementioned safety constraints are derived from the criterion that the follower vehicle must have sufficient headway to be able to avoid a crash if the leader vehicle brakes suddenly. We evaluate SECRM-2D against several learning and non-learning baselines in simulated test scenarios, including freeway driving, exiting, merging, and emergency braking. Our results confirm that representative previously-published RL AV controllers may crash in both training and testing, even if they are optimizing a safety objective. By contrast, our controller SECRM-2D is successful in avoiding crashes during both training and testing, improves over the baselines in measures of efficiency and comfort, and is more faithful in following the prescribed route. In addition, we achieve a good theoretical understanding of the longitudinal steady-state of a collection of SECRM-2D vehicles.

arxiv情報

著者 Tianyu Shi,Ilia Smirnov,Omar ElSamadisy,Baher Abdulhai
発行日 2024-07-23 21:54:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, stat.ML パーマリンク