要約
幅広いエゴ運転行動の下で、将来の運転シナリオをどのように確実にシミュレートすることができますか?
主に安全な専門家の軌跡で構成される現実世界の駆動データでのみ開発された最近の駆動世界モデルは、そのようなデータではまれな危険または非専門家の行動に従うのに苦労しています。
この制限により、ポリシー評価などのタスクへの適用性が制限されます。
この作業では、運転シミュレーター(Carlaなど)から収集された多様な非専門家データを使用して、実際の人間のデモを豊かにし、この不均一なコーパスで訓練された制御可能な世界モデルを構築することにより、この課題に対処します。
拡散トランスアーキテクチャを備えたビデオジェネレーターから始めて、コンディショニングシグナルを効果的に統合し、予測制御性と忠実度を向上させるためのいくつかの戦略を考案します。
結果のモデルであるResimは、危険な非専門家を含むさまざまなアクションの下で、多様なオープンワールドの運転シナリオの信頼できるシミュレーションを可能にします。
さまざまなアクションを判断するために報酬信号を必要とする高忠実度シミュレーションとアプリケーションのギャップを埋めるために、Resimのシミュレートされた将来からの報酬を推定するVideo2Rrewardモジュールを導入します。
私たちのResimパラダイムは、視覚的忠実度が最大44%高くなり、専門家と非専門家の両方のアクションの制御性が50%以上向上し、NAVSIMの計画と政策選択のパフォーマンスをそれぞれ2%と25%増加させます。
要約(オリジナル)
How can we reliably simulate future driving scenarios under a wide range of ego driving behaviors? Recent driving world models, developed exclusively on real-world driving data composed mainly of safe expert trajectories, struggle to follow hazardous or non-expert behaviors, which are rare in such data. This limitation restricts their applicability to tasks such as policy evaluation. In this work, we address this challenge by enriching real-world human demonstrations with diverse non-expert data collected from a driving simulator (e.g., CARLA), and building a controllable world model trained on this heterogeneous corpus. Starting with a video generator featuring a diffusion transformer architecture, we devise several strategies to effectively integrate conditioning signals and improve prediction controllability and fidelity. The resulting model, ReSim, enables Reliable Simulation of diverse open-world driving scenarios under various actions, including hazardous non-expert ones. To close the gap between high-fidelity simulation and applications that require reward signals to judge different actions, we introduce a Video2Reward module that estimates a reward from ReSim’s simulated future. Our ReSim paradigm achieves up to 44% higher visual fidelity, improves controllability for both expert and non-expert actions by over 50%, and boosts planning and policy selection performance on NAVSIM by 2% and 25%, respectively.
arxiv情報
著者 | Jiazhi Yang,Kashyap Chitta,Shenyuan Gao,Long Chen,Yuqian Shao,Xiaosong Jia,Hongyang Li,Andreas Geiger,Xiangyu Yue,Li Chen |
発行日 | 2025-06-11 17:55:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google