Reinforced Refinement with Self-Aware Expansion for End-to-End Autonomous Driving

要約

エンドツーエンドの自律運転は、学習ベースのモジュラー統合を使用して、センサー入力を計画するための直接マッピングセンサー入力のための有望なパラダイムとして浮上しています。
ただし、既存の模倣学習(IL)ベースのモデルは、一般化への一般化に悩まされており、展開後の矯正フィードバックループの欠如に悩まされています。
強化学習(RL)は、最適性を備えたハードケースに取り組むための潜在的なソリューションを提供しますが、特定の運転ケースに過度に適合することにより妨げられることが多く、一般化可能な知識とサンプルの非効率性の壊滅的な忘却をもたらします。
これらの課題を克服するために、モデルに依存しないエンドツーエンドの駆動システムの一般化可能な運転ポリシーを維持しながら、ハードドメインを絶えず改良している新しい学習パイプラインである自己認識拡張(R2SE)で強化された改良を提案します。
継続的な改善を促進する強化微調整と政策の拡大を通じて、R2SEは3つの重要なコンポーネントを備えています。1)ハードケース配分列車での一般主義者の事前に登録されているジェネラリストの模倣学習(IL)運転システムは、ターゲットの洗練のために障害が発生しやすいケースを動的に識別します。
2)残留補強スペシャリストの微調整は、グローバルな運転知識を維持しながら、ハードケースドメインのパフォーマンスを改善するために、強化学習(RL)を使用して残留補正を最適化します。
3)自己認識アダプターの拡張は、専門家のポリシーをジェネラリストモデルに動的に統合し、継続的なパフォーマンスの改善を強化します。
閉ループシミュレーションと現実世界のデータセットにおける実験結果は、最先端のE2Eシステムに対する一般化、安全性、および長老のポリシーの堅牢性の改善を示し、スケーラブルな自動運転の洗練の有効性を強調しています。

要約(オリジナル)

End-to-end autonomous driving has emerged as a promising paradigm for directly mapping sensor inputs to planning maneuvers using learning-based modular integrations. However, existing imitation learning (IL)-based models suffer from generalization to hard cases, and a lack of corrective feedback loop under post-deployment. While reinforcement learning (RL) offers a potential solution to tackle hard cases with optimality, it is often hindered by overfitting to specific driving cases, resulting in catastrophic forgetting of generalizable knowledge and sample inefficiency. To overcome these challenges, we propose Reinforced Refinement with Self-aware Expansion (R2SE), a novel learning pipeline that constantly refines hard domain while keeping generalizable driving policy for model-agnostic end-to-end driving systems. Through reinforcement fine-tuning and policy expansion that facilitates continuous improvement, R2SE features three key components: 1) Generalist Pretraining with hard-case allocation trains a generalist imitation learning (IL) driving system while dynamically identifying failure-prone cases for targeted refinement; 2) Residual Reinforced Specialist Fine-tuning optimizes residual corrections using reinforcement learning (RL) to improve performance in hard case domain while preserving global driving knowledge; 3) Self-aware Adapter Expansion dynamically integrates specialist policies back into the generalist model, enhancing continuous performance improvement. Experimental results in closed-loop simulation and real-world datasets demonstrate improvements in generalization, safety, and long-horizon policy robustness over state-of-the-art E2E systems, highlighting the effectiveness of reinforce refinement for scalable autonomous driving.

arxiv情報

著者 Haochen Liu,Tianyu Li,Haohan Yang,Li Chen,Caojun Wang,Ke Guo,Haochen Tian,Hongchen Li,Hongyang Li,Chen Lv
発行日 2025-06-11 14:42:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク