要約
タイトル – 自動運転のための強化学習ベースの行動計画とサンプリングベースの動作計画の統合
要約 – 強化学習は、自動運転における計画アプローチの開発に高い研究関心を集めています。 以前のほとんどの研究は、直接制御命令を生成する端から端までの計画タスクを考慮しており、実際の車両にアルゴリズムを導入することはほとんどありませんでした。 本研究では、訓練されたディープ強化学習ポリシーを使用して、特定の高レベルの行動計画を行う方法を提案します。抽象的な目的インターフェイスを生成することによって、滑らかで運転可能な軌跡を生成することができる確立された動作計画アルゴリズムを利用することができます。現在の環境モデルを考慮して、与えられた将来のホライズンの交通シーンを予測するために、内部シミュレータを使用することを提案します。混雑した交通状況における自動車の振る舞いは、学習されたポリシーをクエリすることによって決定されます。私たちの知る限り、この研究は初めてディープ強化学習をこのように応用したものであり、したがって最新のベンチマークが欠けています。したがって、提案手法を理想的な単一ショット計画と周期的な再計画で比較して検証することによって、提案手法の妥当性を検証しました。試験場での実車実験は、深層強化学習に基づく計画アプローチのシミュレーションと実世界のギャップを縮小する可能性を示しています。追加のシミュレーション解析により、サイクリックな再計画手法を用いることで、より複雑なマルチエージェントの操作も制御できることが明らかになります。
– 強化学習は、自動運転の計画アプローチの開発に関心が高まっている
– 成功した以前の研究の多くは、アルゴリズムを直接制御命令に導入していない
– この論文では、訓練された深層強化学習ポリシーを使用して、高レベルの行動計画を行う方法を提案する
– 抽象的な目的インターフェースを生成することによって、滑らかで運転可能な軌跡を生成することができる確立された動作計画アルゴリズムを利用することができる
– 現在の環境モデルを考慮して、与えられた将来のホライズンの交通シーンを予測するために、内部シミュレータを使用することを提案する
– 混雑した交通状況における自動車の振る舞いは、学習されたポリシーをクエリすることによって決定される
– この研究は、ディープ強化学習をこのように応用した初めてのもので、最新のベンチマークが欠けている
– 実車実験は、深層強化学習に基づく計画アプローチのシミュレーションと実世界のギャップを縮小する可能性を示しています
– 追加のシミュレーション解析により、サイクリックな再計画手法を用いることで、より複雑なマルチエージェントの操作も制御できることが明らかになります。
要約(オリジナル)
Reinforcement learning has received high research interest for developing planning approaches in automated driving. Most prior works consider the end-to-end planning task that yields direct control commands and rarely deploy their algorithm to real vehicles. In this work, we propose a method to employ a trained deep reinforcement learning policy for dedicated high-level behavior planning. By populating an abstract objective interface, established motion planning algorithms can be leveraged, which derive smooth and drivable trajectories. Given the current environment model, we propose to use a built-in simulator to predict the traffic scene for a given horizon into the future. The behavior of automated vehicles in mixed traffic is determined by querying the learned policy. To the best of our knowledge, this work is the first to apply deep reinforcement learning in this manner, and as such lacks a state-of-the-art benchmark. Thus, we validate the proposed approach by comparing an idealistic single-shot plan with cyclic replanning through the learned policy. Experiments with a real testing vehicle on proving grounds demonstrate the potential of our approach to shrink the simulation to real world gap of deep reinforcement learning based planning approaches. Additional simulative analyses reveal that more complex multi-agent maneuvers can be managed by employing the cycling replanning approach.
arxiv情報
著者 | Marvin Klimke,Benjamin Völz,Michael Buchholz |
発行日 | 2023-04-17 13:49:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI