Comprehensive Training and Evaluation on Deep Reinforcement Learning for Automated Driving in Various Simulated Driving Maneuvers

要約

現実世界での自動運転モデル​​の開発とテストは困難で危険ですらあるかもしれませんが、特に困難な操作の場合、シミュレーションはこれに役立ちます。
深層強化学習 (DRL) は、学習と環境との対話を通じて複雑な意思決定と制御タスクに取り組む可能性を秘めているため、まだ詳細には検討されていませんが、自動運転の開発に適しています。
この研究では、高速道路環境シミュレーションプラットフォーム上で自動運転を訓練するための2つのDRLアルゴリズム、Deep Q-networks(DQN)とTrust Regional Policy Optimization(TRPO)を実装、評価、比較することにより、包括的な研究を実施しました。
効果的でカスタマイズされた報酬関数が開発され、実装されたアルゴリズムが、オンライン精度 (車が車線内の道路をどれだけうまく運転できるか)、効率 (車がどれだけ速く運転するか)、安全性 (車が衝突する可能性の程度) の観点から評価されました。
障害物への衝突など)、快適性(急加速や急ブレーキなど、車がどれだけ急激に動くか)。
結果は、報酬関数を変更した TRPO ベースのモデルが、ほとんどの場合で最高のパフォーマンスを実現したことを示しています。
さらに、特定の運転操作以外にもさまざまな運転操作に取り組むことができる均一な運転モデル​​をトレーニングするために、この研究では高速道路環境を拡張し、さまざまな運転操作と複数の道路シナリオを統合した追加のカスタマイズされたトレーニング環境、つまり ComplexRoads を開発しました。
設計された ComplexRoads 環境でトレーニングされたモデルは、他の運転操作にもうまく適応し、全体的なパフォーマンスが期待できます。
最後に、この作業を実装するために、ハイウェイ環境にいくつかの機能が追加されました。
コードは GitHub (https://github.com/alaineman/drlcarsim-paper) で公開されています。

要約(オリジナル)

Developing and testing automated driving models in the real world might be challenging and even dangerous, while simulation can help with this, especially for challenging maneuvers. Deep reinforcement learning (DRL) has the potential to tackle complex decision-making and controlling tasks through learning and interacting with the environment, thus it is suitable for developing automated driving while not being explored in detail yet. This study carried out a comprehensive study by implementing, evaluating, and comparing the two DRL algorithms, Deep Q-networks (DQN) and Trust Region Policy Optimization (TRPO), for training automated driving on the highway-env simulation platform. Effective and customized reward functions were developed and the implemented algorithms were evaluated in terms of onlane accuracy (how well the car drives on the road within the lane), efficiency (how fast the car drives), safety (how likely the car is to crash into obstacles), and comfort (how much the car makes jerks, e.g., suddenly accelerates or brakes). Results show that the TRPO-based models with modified reward functions delivered the best performance in most cases. Furthermore, to train a uniform driving model that can tackle various driving maneuvers besides the specific ones, this study expanded the highway-env and developed an extra customized training environment, namely, ComplexRoads, integrating various driving maneuvers and multiple road scenarios together. Models trained on the designed ComplexRoads environment can adapt well to other driving maneuvers with promising overall performance. Lastly, several functionalities were added to the highway-env to implement this work. The codes are open on GitHub at https://github.com/alaineman/drlcarsim-paper.

arxiv情報

著者 Yongqi Dong,Tobias Datema,Vincent Wassenaar,Joris van de Weg,Cahit Tolga Kopar,Harim Suleman
発行日 2023-08-18 05:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY パーマリンク