Hybrid Rendering for Multimodal Autonomous Driving: Merging Neural and Physics-Based Simulation

要約

自律運転シミュレーションのための神経再構成モデ​​ルは、近年、動的なモデルがますます普及していることに大きな進歩を遂げています。
ただし、これらのモデルは通常、元の軌跡を密接に追跡するドメイン内のオブジェクトの処理に限定されます。
神経再構成の強度を物理学ベースのレンダリングと組み合わせたハイブリッドアプローチを紹介します。
この方法により、任意の場所にある従来のメッシュベースの動的エージェントの仮想配置、環境条件への調整、および新しいカメラの視点からのレンダリングが可能になります。
私たちのアプローチは、新しいトレーニング方法であるNERF2GSを通じてインタラクティブなフレームレートを維持しながら、新しいビューの合成品質(特に道路面やレーンマーキング)を大幅に向上させます。
この手法は、NERFベースの方法の優れた一般化能力と、3Dガウススプラッティング(3DG)のリアルタイムレンダリング速度を活用します。
これを実現し、騒々しいライダーポイントクラウドから派生した深さの正則化を備えた元の画像でカスタマイズされたNERFモデルをトレーニングし、3DGSトレーニングの教師モデルとして使用します。
このプロセスにより、監督として正確な深さ、表面正規、カメラの外観モデリングが保証されます。
ブロックベースのトレーニングの並列化により、この方法は大規模な再構成(100,000平方メートル以上)を処理し、セグメンテーションマスク、表面正規、深度マップを予測できます。
シミュレーション中、深度ベースの構成とリアルタイムカメラシミュレーション用の複数のカメラモデルを備えたラスター化ベースのレンダリングバックエンド、および正確なライダーシミュレーション用のレイトレースバックエンドをサポートします。

要約(オリジナル)

Neural reconstruction models for autonomous driving simulation have made significant strides in recent years, with dynamic models becoming increasingly prevalent. However, these models are typically limited to handling in-domain objects closely following their original trajectories. We introduce a hybrid approach that combines the strengths of neural reconstruction with physics-based rendering. This method enables the virtual placement of traditional mesh-based dynamic agents at arbitrary locations, adjustments to environmental conditions, and rendering from novel camera viewpoints. Our approach significantly enhances novel view synthesis quality — especially for road surfaces and lane markings — while maintaining interactive frame rates through our novel training method, NeRF2GS. This technique leverages the superior generalization capabilities of NeRF-based methods and the real-time rendering speed of 3D Gaussian Splatting (3DGS). We achieve this by training a customized NeRF model on the original images with depth regularization derived from a noisy LiDAR point cloud, then using it as a teacher model for 3DGS training. This process ensures accurate depth, surface normals, and camera appearance modeling as supervision. With our block-based training parallelization, the method can handle large-scale reconstructions (greater than or equal to 100,000 square meters) and predict segmentation masks, surface normals, and depth maps. During simulation, it supports a rasterization-based rendering backend with depth-based composition and multiple camera models for real-time camera simulation, as well as a ray-traced backend for precise LiDAR simulation.

arxiv情報

著者 Máté Tóth,Péter Kovács,Zoltán Bendefy,Zoltán Hortsin,Balázs Teréki,Tamás Matuszka
発行日 2025-03-12 15:18:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク