要約
強化学習 (RL) は、単純な運転シナリオにおける自動運転車 (AV) の計画と意思決定において有望な進歩をもたらしました。
しかし、AV 用の既存の RL アルゴリズムは、複雑な都市シナリオにおいて重要な運転スキルを学習できません。
まず、都市部の運転シナリオでは、AV が従来の RL アルゴリズムでは処理できない複数の運転タスクを処理する必要があります。
第 2 に、都市シナリオでは他の車両が存在するため、環境が動的に変化し、AV の動作と軌道を計画する RL アルゴリズムに課題が生じます。
この研究では、階層強化学習 (atHRL) 手法を使用したアクションおよび軌道プランナーを提案します。この手法は、LIDAR と鳥瞰図の認識を使用して階層モデルでエージェントの行動をモデル化します。
提案された atHRL メソッドは、エージェントの将来の軌道に関する決定を学習し、階層型 DDPG アルゴリズムに基づく連続設定の下でターゲット ウェイポイントを計算します。
atHRL モデルによって計画されたウェイポイントは、車両の操縦に必要なステアリングとスロットルのコマンドを生成するために低レベルのコントローラーに送信されます。
私たちは、CARLA シミュレーターで他の車両が存在する中で複数のタスクを構成する複雑な都市部の運転シナリオにおける広範な実験を通じて、atHRL の有効性を経験的に検証しています。
実験結果は、最先端の RL 手法と比較してパフォーマンスが大幅に向上していることを示唆しています。
要約(オリジナル)
Reinforcement Learning (RL) has made promising progress in planning and decision-making for Autonomous Vehicles (AVs) in simple driving scenarios. However, existing RL algorithms for AVs fail to learn critical driving skills in complex urban scenarios. First, urban driving scenarios require AVs to handle multiple driving tasks of which conventional RL algorithms are incapable. Second, the presence of other vehicles in urban scenarios results in a dynamically changing environment, which challenges RL algorithms to plan the action and trajectory of the AV. In this work, we propose an action and trajectory planner using Hierarchical Reinforcement Learning (atHRL) method, which models the agent behavior in a hierarchical model by using the perception of the lidar and birdeye view. The proposed atHRL method learns to make decisions about the agent’s future trajectory and computes target waypoints under continuous settings based on a hierarchical DDPG algorithm. The waypoints planned by the atHRL model are then sent to a low-level controller to generate the steering and throttle commands required for the vehicle maneuver. We empirically verify the efficacy of atHRL through extensive experiments in complex urban driving scenarios that compose multiple tasks with the presence of other vehicles in the CARLA simulator. The experimental results suggest a significant performance improvement compared to the state-of-the-art RL methods.
arxiv情報
著者 | Xinyang Lu,Flint Xiaofeng Fan,Tianying Wang |
発行日 | 2023-06-28 07:11:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google