要約
軌道計画は、自律的な運転に不可欠であり、複雑な環境での安全で効率的なナビゲーションを確保します。
最近の学習ベースの方法、特に強化学習(RL)は特定のシナリオで有望であることを示していますが、RLプランナーは非効率性のトレーニングと大規模で現実世界の運転シナリオの管理に苦労しています。
この論文では、\ textbf {carplanner}、a \ textbf {c} onsistent \ textbf {a} uto- \ textbf {r} earsission \ textbf {planner}を紹介します。
自動回帰構造により、効率的な大規模なRLトレーニングが可能になり、一貫性の組み込みにより、時間ステップを越えて一貫した時間的一貫性を維持することにより、安定したポリシー学習が保証されます。
さらに、Carplannerは、専門家が誘導する報酬機能と不変視ビューモジュールを備えた世代選択フレームワークを採用し、RLトレーニングを簡素化し、ポリシーパフォーマンスを向上させます。
広範な分析では、提案されたRLフレームワークが、トレーニング効率とパフォーマンス向上の課題に効果的に対処し、自律運転における軌跡計画の有望なソリューションとしてカープレーナーを配置することを実施しています。
私たちの知る限り、私たちは、RLベースのプランナーが、挑戦的な大規模な現実世界のデータセットNuplanでILおよびルールベースの最先端(SOTA)の両方を超えることができることを最初に示しています。
提案されたCarplannerは、この要求の厳しいデータセット内でRL-、IL-、およびルールベースのSOTAアプローチを上回ります。
要約(オリジナル)
Trajectory planning is vital for autonomous driving, ensuring safe and efficient navigation in complex environments. While recent learning-based methods, particularly reinforcement learning (RL), have shown promise in specific scenarios, RL planners struggle with training inefficiencies and managing large-scale, real-world driving scenarios. In this paper, we introduce \textbf{CarPlanner}, a \textbf{C}onsistent \textbf{a}uto-\textbf{r}egressive \textbf{Planner} that uses RL to generate multi-modal trajectories. The auto-regressive structure enables efficient large-scale RL training, while the incorporation of consistency ensures stable policy learning by maintaining coherent temporal consistency across time steps. Moreover, CarPlanner employs a generation-selection framework with an expert-guided reward function and an invariant-view module, simplifying RL training and enhancing policy performance. Extensive analysis demonstrates that our proposed RL framework effectively addresses the challenges of training efficiency and performance enhancement, positioning CarPlanner as a promising solution for trajectory planning in autonomous driving. To the best of our knowledge, we are the first to demonstrate that the RL-based planner can surpass both IL- and rule-based state-of-the-arts (SOTAs) on the challenging large-scale real-world dataset nuPlan. Our proposed CarPlanner surpasses RL-, IL-, and rule-based SOTA approaches within this demanding dataset.
arxiv情報
著者 | Dongkun Zhang,Jiaming Liang,Ke Guo,Sha Lu,Qi Wang,Rong Xiong,Zhenwei Miao,Yue Wang |
発行日 | 2025-02-27 09:26:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google