Trajectory Planning for Autonomous Vehicle Using Iterative Reward Prediction in Reinforcement Learning

要約

自動運転車の従来の軌道計画方法には、いくつかの制限があります。
たとえば、ヒューリスティックで明示的な単純なルールは一般化可能性を制限し、複雑な動作を妨げます。
これらの制限は、強化学習ベースの軌道計画を使用して対処できます。
ただし、強化学習には不安定な学習があり、既存の強化学習ベースの軌道計画手法では不確実性が考慮されていません。
そこで本論文では、自動運転車のための強化学習に基づく軌道計画手法を提案する。
提案された方法には、将来の状態の期待を繰り返し予測する反復報酬予測アプローチが含まれます。
これらの予測された状態は報酬を予測するために使用され、安定性を高めるために学習プロセスに統合されます。
さらに、不確実性伝播を利用して強化学習エージェントに不確実性を認識させる手法を提案し、CARLAシミュレータを用いて提案手法を評価した。
ベースライン手法と比較して、提案手法は衝突率を60.17%減少させ、平均報酬を30.82倍増加させた。
提案された方法のビデオは https://www.youtube.com/watch?v=PfDbaeLfcN4 でご覧いただけます。

要約(オリジナル)

Traditional trajectory planning methods for autonomous vehicles have several limitations. For example, heuristic and explicit simple rules limit generalizability and hinder complex motions. These limitations can be addressed using reinforcement learning-based trajectory planning. However, reinforcement learning suffers from unstable learning and existing reinforcement learning-based trajectory planning methods do not consider the uncertainties. Thus, this paper, proposes a reinforcement learning-based trajectory planning method for autonomous vehicles. The proposed method involves an iterative reward prediction approach that iteratively predicts expectations of future states. These predicted states are then used to forecast rewards and integrated into the learning process to enhance stability. Additionally, a method is proposed that utilizes uncertainty propagation to make the reinforcement learning agent aware of uncertainties.The proposed method was evaluated using the CARLA simulator. Compared to the baseline methods, the proposed method reduced the collision rate by 60.17%, and increased the average reward by 30.82 times. A video of the proposed method is available at https://www.youtube.com/watch?v=PfDbaeLfcN4.

arxiv情報

著者 Hyunwoo Park
発行日 2024-05-02 02:18:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク