ODG: Occupancy Prediction Using Dual Gaussians

要約

占有予測は、周囲の環境のカメラ画像からきめ細かい3Dジオメトリとセマンティクスを導き、自律運転の重要な知覚タスクにします。
既存のメソッドは、シーン表現として密なグリッドを採用します。これは高解像度にスケーリングすることが困難です。または、さまざまなオブジェクト特性を処理するには不十分なスパースクエリの単一セットを使用してシーン全体を学習することができます。
この論文では、複雑なシーンのダイナミクスを効果的にキャプチャするために、階層的なデュアルスパースガウス表現であるODGを紹介します。
運転シーンを静的および動的な対応物に普遍的に分解できるという観察に基づいて、デュアルガウスクエリを定義して、多様なシーンオブジェクトをより適切にモデル化します。
階層的なガウストランスを利用して、占領されたボクセルセンターとセマンティッククラスとガウスパラメーターを予測します。
3Dガウススプラッティングのリアルタイムレンダリング機能を活用すると、ピクセルレベルのアラインメントを注入して占有学習を後押しするために、利用可能な深さおよびセマンティックマップアノテーションでレンダリング監督を課します。
OCC3DナスセンとOCC3D-WAYMOベンチマークに関する広範な実験により、提案された方法により、低推論コストを維持しながら、新しい最先端の結果が設定されています。

要約(オリジナル)

Occupancy prediction infers fine-grained 3D geometry and semantics from camera images of the surrounding environment, making it a critical perception task for autonomous driving. Existing methods either adopt dense grids as scene representation, which is difficult to scale to high resolution, or learn the entire scene using a single set of sparse queries, which is insufficient to handle the various object characteristics. In this paper, we present ODG, a hierarchical dual sparse Gaussian representation to effectively capture complex scene dynamics. Building upon the observation that driving scenes can be universally decomposed into static and dynamic counterparts, we define dual Gaussian queries to better model the diverse scene objects. We utilize a hierarchical Gaussian transformer to predict the occupied voxel centers and semantic classes along with the Gaussian parameters. Leveraging the real-time rendering capability of 3D Gaussian Splatting, we also impose rendering supervision with available depth and semantic map annotations injecting pixel-level alignment to boost occupancy learning. Extensive experiments on the Occ3D-nuScenes and Occ3D-Waymo benchmarks demonstrate our proposed method sets new state-of-the-art results while maintaining low inference cost.

arxiv情報

著者 Yunxiao Shi,Yinhao Zhu,Shizhong Han,Jisoo Jeong,Amin Ansari,Hong Cai,Fatih Porikli
発行日 2025-06-12 13:55:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク