R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation

要約

自律運転(AD)システムの検証には、多様で安全性の高いテストが必要であり、光リアリックな仮想環境を不可欠にします。
従来のシミュレーションプラットフォームは、制御可能ですが、リソース集約的なスケーリングであり、多くの場合、実際のデータとドメインのギャップに苦しんでいます。
対照的に、3D Gaussian Splatting(3DGS)のような神経再構成方法は、現実世界の運転シーンのフォトリアリックなデジタル双子を作成するためのスケーラブルなソリューションを提供します。
ただし、シーンごとの最適化ベースの方法論は、統合された照明効果を備えた不完全なオブジェクトモデルをもたらす傾向があるため、動的なオブジェクトの操作と再利用性と格闘しています。
このペーパーでは、これらの制限を克服し、既存のシーンに完全な3Dアセットを現実的に挿入できるように設計された軽量のワンステップ拡散モデルであるR3D2を紹介します。
これは、新しいデータセットでR3D2をトレーニングすることによって達成されます。3DGSオブジェクトアセットは、画像条件付きの3D生成モデルを使用してワイルド内の広告データから生成され、ニューラルレンダリングベースの仮想環境に合成され、R3D2が現実的な統合を学習できるようにします。
定量的および定性的評価は、R3D2が挿入された資産のリアリズムを大幅に向上させ、テキストから3Dの資産挿入やクロスシーン/データセットオブジェクト転送などのユースケースを可能にし、AD検証の真のスケーラビリティを可能にすることを示しています。
スケーラブルで現実的な広告シミュレーションでのさらなる調査を促進するために、データセットとコードをリリースします。https://research.zenseact.com/publications/r3d2/を参照してください。

要約(オリジナル)

Validating autonomous driving (AD) systems requires diverse and safety-critical testing, making photorealistic virtual environments essential. Traditional simulation platforms, while controllable, are resource-intensive to scale and often suffer from a domain gap with real-world data. In contrast, neural reconstruction methods like 3D Gaussian Splatting (3DGS) offer a scalable solution for creating photorealistic digital twins of real-world driving scenes. However, they struggle with dynamic object manipulation and reusability as their per-scene optimization-based methodology tends to result in incomplete object models with integrated illumination effects. This paper introduces R3D2, a lightweight, one-step diffusion model designed to overcome these limitations and enable realistic insertion of complete 3D assets into existing scenes by generating plausible rendering effects-such as shadows and consistent lighting-in real time. This is achieved by training R3D2 on a novel dataset: 3DGS object assets are generated from in-the-wild AD data using an image-conditioned 3D generative model, and then synthetically placed into neural rendering-based virtual environments, allowing R3D2 to learn realistic integration. Quantitative and qualitative evaluations demonstrate that R3D2 significantly enhances the realism of inserted assets, enabling use-cases like text-to-3D asset insertion and cross-scene/dataset object transfer, allowing for true scalability in AD validation. To promote further research in scalable and realistic AD simulation, we will release our dataset and code, see https://research.zenseact.com/publications/R3D2/.

arxiv情報

著者 William Ljungbergh,Bernardo Taveira,Wenzhao Zheng,Adam Tonderski,Chensheng Peng,Fredrik Kahl,Christoffer Petersson,Michael Felsberg,Kurt Keutzer,Masayoshi Tomizuka,Wei Zhan
発行日 2025-06-09 14:50:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク