要約
自動運転では、強化学習 (RL) と模倣学習 (IL) を使用したエンドツーエンドのアプローチの人気が高まっています。
ただし、古典的なロボット工学のワークフローのような明示的な推論や、視野を持った計画、暗黙的かつ近視眼的な戦略を主導することはありません。
この論文では、経路追跡に Behavioral Cloning (BC) を使用し、静的障害物ナッジに BC によってブートストラップされた Proximal Policy Optimization (PPO) を使用する軌道計画手法を紹介します。
横方向のオフセット値を出力して指定された基準軌道を調整し、さまざまなコントローラーに対して修正されたパスを実行します。
私たちの実験結果は、アルゴリズムが熟練者のパフォーマンスを模倣する経路追跡を実行し、試行錯誤によって固定障害物への衝突を回避できることを示しています。
この方法は、自動運転の軌道計画問題において、学習ベースの方法による計画をうまく試みています。
要約(オリジナル)
End-to-end approaches with Reinforcement Learning (RL) and Imitation Learning (IL) have gained increasing popularity in autonomous driving. However, they do not involve explicit reasoning like classic robotics workflow, nor planning with horizons, leading strategies implicit and myopic. In this paper, we introduce our trajectory planning method that uses Behavioral Cloning (BC) for path-tracking and Proximal Policy Optimization (PPO) bootstrapped by BC for static obstacle nudging. It outputs lateral offset values to adjust the given reference trajectory, and performs modified path for different controllers. Our experimental results show that the algorithm can do path-tracking that mimics the expert performance, and avoiding collision to fixed obstacles by trial and errors. This method makes a good attempt at planning with learning-based methods in trajectory planning problems of autonomous driving.
arxiv情報
著者 | Mingyan Zhou,Biao Wang,Xiatao Sun |
発行日 | 2024-09-09 02:54:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google