RIFT: Closed-Loop RL Fine-Tuning for Realistic and Controllable Traffic Simulation

要約

インタラクティブなクローズドループトラフィックシミュレーションにおけるリアリズムと制御可能性の両方を達成することは、自律運転における重要な課題です。
データ駆動型のシミュレーション方法は、現実的な軌跡を再現しますが、信頼性をさらに低下させる単純化されたダイナミクスモデルによって悪化した閉ループ展開の共変量シフトに悩まされます。
逆に、物理学ベースのシミュレーション方法は、信頼性が高く制御可能な閉ループの相互作用を強化しますが、多くの場合、専門家のデモンストレーションが欠けており、リアリズムが妥協します。
これらの課題に対処するために、データ駆動型のシミュレータでオープンループ模倣学習前トレーニングを行うデュアルステージAV中心のシミュレーションフレームワークを導入して、軌道レベルのリアリズムとマルチモダリティをキャプチャし、その後、物理ベースのシミュレータで閉鎖補強学習微調整を導入し、制御性を強化し、シフトを測定します。
微調整段階では、GRPOスタイルのグループ関連のアドバンテージ定式化を介して軌道レベルのマルチモダリティを維持するシンプルでありながら効果的な閉ループRL微調整戦略であるRiftを提案し、KLの正規化をデュアルクリップメカニズムに置き換えることで制御可能性とトレーニングの安定性を高めます。
広範な実験は、Riftが生成されたトラフィックシナリオのリアリズムと制御性を大幅に改善し、多様でインタラクティブなシナリオで自律的な車両性能を評価するための堅牢なプラットフォームを提供することを示しています。

要約(オリジナル)

Achieving both realism and controllability in interactive closed-loop traffic simulation remains a key challenge in autonomous driving. Data-driven simulation methods reproduce realistic trajectories but suffer from covariate shift in closed-loop deployment, compounded by simplified dynamics models that further reduce reliability. Conversely, physics-based simulation methods enhance reliable and controllable closed-loop interactions but often lack expert demonstrations, compromising realism. To address these challenges, we introduce a dual-stage AV-centered simulation framework that conducts open-loop imitation learning pre-training in a data-driven simulator to capture trajectory-level realism and multimodality, followed by closed-loop reinforcement learning fine-tuning in a physics-based simulator to enhance controllability and mitigate covariate shift. In the fine-tuning stage, we propose RIFT, a simple yet effective closed-loop RL fine-tuning strategy that preserves the trajectory-level multimodality through a GRPO-style group-relative advantage formulation, while enhancing controllability and training stability by replacing KL regularization with the dual-clip mechanism. Extensive experiments demonstrate that RIFT significantly improves the realism and controllability of generated traffic scenarios, providing a robust platform for evaluating autonomous vehicle performance in diverse and interactive scenarios.

arxiv情報

著者 Keyu Chen,Wenchao Sun,Hao Cheng,Sifa Zheng
発行日 2025-05-06 09:12:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク