要約
運転シーンの3Dジオメトリとセマンティクスを理解することは、安全な自動運転車の開発に不可欠です。
3D占有モデルは通常、標準的な損失を伴うボクセルベースの監督を使用して訓練されていますが(例:クロスエントロピー、ロヴァス、サイコロ)、これらのアプローチはボクセルの予測を独立して扱い、空間的関係を無視します。
この論文では、ボクセルベースの監督を強化するプラグアンドプレイ3Dから2Dの再注入損失であるGaussRenderを提案します。
私たちの方法は、3Dボクセル表現を任意の2D視点に投影し、ガウスのスプラットをレバレッジして、ボクセルの効率的で微分可能なレンダリングプロキシとして、予測された要素全体に空間依存関係を導入します。
このアプローチは、セマンティックおよび幾何学的な一貫性を改善し、閉塞をより効率的に処理し、アーキテクチャの変更を必要としません。
複数のベンチマークでの広範な実験(Courvledocc-Nuscenes、Occ3D-Nuscenes、SSCBench-Kitti360)は、さまざまな3D占有モデル(TPVFormer、Surversocc、Symphonies)にわたって一貫したパフォーマンスの向上を示し、フレームワークの堅牢性と汎用性を強調しています。
このコードは、https://github.com/valeoai/gaussrenderで入手できます。
要約(オリジナル)
Understanding the 3D geometry and semantics of driving scenes is critical for developing of safe autonomous vehicles. While 3D occupancy models are typically trained using voxel-based supervision with standard losses (e.g., cross-entropy, Lovasz, dice), these approaches treat voxel predictions independently, neglecting their spatial relationships. In this paper, we propose GaussRender, a plug-and-play 3D-to-2D reprojection loss that enhances voxel-based supervision. Our method projects 3D voxel representations into arbitrary 2D perspectives and leverages Gaussian splatting as an efficient, differentiable rendering proxy of voxels, introducing spatial dependencies across projected elements. This approach improves semantic and geometric consistency, handles occlusions more efficiently, and requires no architectural modifications. Extensive experiments on multiple benchmarks (SurroundOcc-nuScenes, Occ3D-nuScenes, SSCBench-KITTI360) demonstrate consistent performance gains across various 3D occupancy models (TPVFormer, SurroundOcc, Symphonies), highlighting the robustness and versatility of our framework. The code is available at https://github.com/valeoai/GaussRender.
arxiv情報
著者 | Loick Chambon,Eloi Zablocki,Alexandre Boulch,Mickael Chen,Matthieu Cord |
発行日 | 2025-02-07 16:07:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google