要約
補強学習(RL)は、模倣学習(IL)に固有の因果的混乱と分布シフトを軽減できます。
ただし、RLをエンドツーエンドの自律運転(E2E-AD)に適用することは、トレーニングの難しさのためのオープンな問題であり、ILは依然として学界と産業の両方で主流のパラダイムです。
最近、モデルベースの強化学習(MBRL)は、神経計画における有望な結果を実証しています。
ただし、これらの方法は通常、生のセンサーデータではなく入力として特権情報を必要とします。
デュアルストリームMBRLアプローチであるRaw2Driveを設計することにより、このギャップを埋めます。
当初、私たちは特権情報を入力として使用するニューラルプランナーと組み合わせた補助的な特権世界モデルを効率的にトレーニングします。
その後、提案されたガイダンスメカニズムを介して訓練された生センサーの世界モデルを導入します。これにより、ロールアウト中に生センサーの世界モデルと特権世界モデルの一貫性が保証されます。
最後に、RAWセンサーの世界モデルは、特権世界モデルのヘッドに埋め込まれた事前知識を組み合わせて、生センサーポリシーのトレーニングを効果的に導きます。
Raw2Driveは、これまでのところ、Carla Leaderboard 2.0およびBench2Driveで唯一のRLベースのエンドツーエンドメソッドであり、最先端のパフォーマンスを実現しています。
要約(オリジナル)
Reinforcement Learning (RL) can mitigate the causal confusion and distribution shift inherent to imitation learning (IL). However, applying RL to end-to-end autonomous driving (E2E-AD) remains an open problem for its training difficulty, and IL is still the mainstream paradigm in both academia and industry. Recently Model-based Reinforcement Learning (MBRL) have demonstrated promising results in neural planning; however, these methods typically require privileged information as input rather than raw sensor data. We fill this gap by designing Raw2Drive, a dual-stream MBRL approach. Initially, we efficiently train an auxiliary privileged world model paired with a neural planner that uses privileged information as input. Subsequently, we introduce a raw sensor world model trained via our proposed Guidance Mechanism, which ensures consistency between the raw sensor world model and the privileged world model during rollouts. Finally, the raw sensor world model combines the prior knowledge embedded in the heads of the privileged world model to effectively guide the training of the raw sensor policy. Raw2Drive is so far the only RL based end-to-end method on CARLA Leaderboard 2.0, and Bench2Drive and it achieves state-of-the-art performance.
arxiv情報
著者 | Zhenjie Yang,Xiaosong Jia,Qifeng Li,Xue Yang,Maoqing Yao,Junchi Yan |
発行日 | 2025-05-22 08:46:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google