CIMRL: Combining IMitation and Reinforcement Learning for Safe Autonomous Driving

要約

自動運転への最新のアプローチは、模倣学習を通じて大量の人間の運転データを使用してトレーニングされた学習コンポーネントに大きく依存しています。
ただし、これらの方法では高価な大量のデータ収集が必要であり、さらに、ロングテール シナリオを安全に処理したり、時間の経過とともにエラーが複合化したりするという課題に直面しています。
同時に、純粋な強化学習 (RL) 手法では、運転のような、まばらで制約があり定義が難しい報酬設定では、パフォーマンスの高いポリシーを学習できない可能性があります。
これらの両方の課題により、自動運転車などの安全性が重要なアプリケーションに純粋に複製されたポリシーを導入することが困難になります。
この論文では、模倣と強化学習の組み合わせ (CIMRL) アプローチを提案します。これは、模倣動作事前分布と安全制約を活用することで、シミュレーションで運転ポリシーのトレーニングを可能にするフレームワークです。
CIMRL は広範な報酬仕様を必要とせず、純粋なクローン作成メソッドの閉ループ動作を改善します。
RL と模倣を組み合わせることにより、私たちの方法がベンチマークを駆動する閉ループ シミュレーションで最先端の結果を達成することを実証します。

要約(オリジナル)

Modern approaches to autonomous driving rely heavily on learned components trained with large amounts of human driving data via imitation learning. However, these methods require large amounts of expensive data collection and even then face challenges with safely handling long-tail scenarios and compounding errors over time. At the same time, pure Reinforcement Learning (RL) methods can fail to learn performant policies in sparse, constrained, and challenging-to-define reward settings like driving. Both of these challenges make deploying purely cloned policies in safety critical applications like autonomous vehicles challenging. In this paper we propose Combining IMitation and Reinforcement Learning (CIMRL) approach – a framework that enables training driving policies in simulation through leveraging imitative motion priors and safety constraints. CIMRL does not require extensive reward specification and improves on the closed loop behavior of pure cloning methods. By combining RL and imitation, we demonstrate that our method achieves state-of-the-art results in closed loop simulation driving benchmarks.

arxiv情報

著者 Jonathan Booher,Khashayar Rohanimanesh,Junhong Xu,Aleksandr Petiushko
発行日 2024-06-17 16:34:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク