RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

要約

既存のエンドツーエンドの自律運転(AD)アルゴリズムは通常、模倣学習(IL)パラダイムに従います。これは、因果的混乱やオープンループギャップなどの課題に直面しています。
この作業では、3DGSベースの閉ループ補強学習(RL)トレーニングパラダイムを確立します。
3DGSテクニックを活用することにより、実際の物理的世界のフォトリアリックなデジタルレプリカを構築し、ADポリシーが国家空間を広範囲に探索し、大規模な試行とエラーを通じて分散シナリオを処理することを学ぶことができます。
安全性を高めるために、安全性が批判的なイベントに効果的に対応し、現実世界の因果関係を理解するためのポリシーを導く専門の報酬を設計します。
人間の運転行動とのより良い整合のために、ILは正規化項としてRLトレーニングに組み込まれます。
多様で、以前は見えなかった3DGS環境で構成される閉ループ評価ベンチマークを紹介します。
ILベースの方法と比較して、RADはほとんどの閉ループメトリック、特に3倍低い衝突率でより強力なパフォーマンスを達成します。
豊富な閉ループの結果は、https://hgao-cv.github.io/radに表示されます。

要約(オリジナル)

Existing end-to-end autonomous driving (AD) algorithms typically follow the Imitation Learning (IL) paradigm, which faces challenges such as causal confusion and the open-loop gap. In this work, we establish a 3DGS-based closed-loop Reinforcement Learning (RL) training paradigm. By leveraging 3DGS techniques, we construct a photorealistic digital replica of the real physical world, enabling the AD policy to extensively explore the state space and learn to handle out-of-distribution scenarios through large-scale trial and error. To enhance safety, we design specialized rewards that guide the policy to effectively respond to safety-critical events and understand real-world causal relationships. For better alignment with human driving behavior, IL is incorporated into RL training as a regularization term. We introduce a closed-loop evaluation benchmark consisting of diverse, previously unseen 3DGS environments. Compared to IL-based methods, RAD achieves stronger performance in most closed-loop metrics, especially 3x lower collision rate. Abundant closed-loop results are presented at https://hgao-cv.github.io/RAD.

arxiv情報

著者 Hao Gao,Shaoyu Chen,Bo Jiang,Bencheng Liao,Yiang Shi,Xiaoyang Guo,Yuechuan Pu,Haoran Yin,Xiangyu Li,Xinbang Zhang,Ying Zhang,Wenyu Liu,Qian Zhang,Xinggang Wang
発行日 2025-02-18 18:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク