RACE-SM: Reinforcement Learning Based Autonomous Control for Social On-Ramp Merging

要約

人間が制御する交通における自律並列スタイルの入口ランプ合流は、引き続き自律車両制御の既存の問題です。
車両制御のための既存の非学習ベースのソリューションは、主にルールと最適化に依存しています。
これらの方法には重大な課題があることがわかっています。
深層強化学習の最近の進歩は有望であることが示されており、学術的に大きな関心を集めていますが、利用可能な学習ベースのアプローチでは、他の高速道路車両への注意が不十分であり、不正確な道路交通の仮定に依存していることがよくあります。
さらに、パラレルスタイルのケースはほとんど考慮されていません。
社会的に受け入れられる行動を生成するために協力的または非協力的な自車両とその周囲の車両の両方に対する有用性を明示的に考慮した、加速および車線変更の意思決定のための新しい学習ベースのモデルが提案されます。
新しい報酬関数は、社会的価値指向を利用して車両の社会協力レベルに重み付けを行い、モデルの指定された社会的価値指向に従って重み付けされる自我車両と周囲の車両のユーティリティに分割されます。
テーパースタイルとパラレルスタイルのセクションに分かれたオンランプを備えた 2 車線の高速道路を検討します。
シミュレーション結果は、報酬関数の設計において周囲の車両を考慮することの重要性を示し、提案されたモデルが衝突に関して文献のモデルと同等またはそれを上回ることを示し、また、衝突の影響を直接考慮することにより、ニアミスや反社会的行動を回避する社会的に礼儀正しい行動を導入します。
周囲の車両に合流します。

要約(オリジナル)

Autonomous parallel-style on-ramp merging in human controlled traffic continues to be an existing issue for autonomous vehicle control. Existing non-learning based solutions for vehicle control rely on rules and optimization primarily. These methods have been seen to present significant challenges. Recent advancements in Deep Reinforcement Learning have shown promise and have received significant academic interest however the available learning based approaches show inadequate attention to other highway vehicles and often rely on inaccurate road traffic assumptions. In addition, the parallel-style case is rarely considered. A novel learning based model for acceleration and lane change decision making that explicitly considers the utility to both the ego vehicle and its surrounding vehicles which may be cooperative or uncooperative to produce behaviour that is socially acceptable is proposed. The novel reward function makes use of Social Value Orientation to weight the vehicle’s level of social cooperation and is divided into ego vehicle and surrounding vehicle utility which are weighted according to the model’s designated Social Value Orientation. A two-lane highway with an on-ramp divided into a taper-style and parallel-style section is considered. Simulation results indicated the importance of considering surrounding vehicles in reward function design and show that the proposed model matches or surpasses those in literature in terms of collisions while also introducing socially courteous behaviour avoiding near misses and anti-social behaviour through direct consideration of the effect of merging on surrounding vehicles.

arxiv情報

著者 Jordan Poots
発行日 2024-03-05 23:03:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク