OccGen: Generative Multi-modal 3D Occupancy Prediction for Autonomous Driving

要約

3D セマンティック占有予測の既存のソリューションは通常、タスクをワンショットの 3D ボクセル単位のセグメンテーション認識問題として扱います。
これらの識別方法は、入力と占有マップの間のマッピングを 1 つのステップで学習することに焦点を当てており、占有マップを徐々に改良する機能と、局所領域をどこかで完成させる合理的なシーンの想像力が欠けています。
このペーパーでは、3D セマンティック占有予測タスク用のシンプルかつ強力な生成知覚モデルである OccGen を紹介します。
OccGen は、「ノイズから占有へ」生成パラダイムを採用し、ランダムなガウス分布から生じるノイズを予測して除去することで、占有マップを段階的に推論して洗練させます。
OccGen は 2 つの主要コンポーネントで構成されています。マルチモーダル入力を処理できる条件付きエンコーダーと、マルチモーダル機能を条件として使用して拡散ノイズ除去を適用するプログレッシブ リファインメント デコーダーです。
この生成パイプラインの重要な洞察は、拡散ノイズ除去プロセスが密な 3D 占有マップの粗いものから細かいものまでの洗練を自然にモデル化できるため、より詳細な予測が生成できることです。
いくつかの占有ベンチマークに関する広範な実験により、最先端の方法と比較して、提案された方法の有効性が実証されています。
たとえば、OccGen は、マルチモーダル、LiDAR のみ、カメラのみの設定で、nuScenes-Occupancy データセットの mIoU をそれぞれ 9.5%、6.3%、13.3% 相対的に向上させます。
さらに、生成的知覚モデルとして、OccGen は、複数ステップの予測とともに不確実性の推定を提供するなど、識別モデルでは達成できない望ましい特性を示します。

要約(オリジナル)

Existing solutions for 3D semantic occupancy prediction typically treat the task as a one-shot 3D voxel-wise segmentation perception problem. These discriminative methods focus on learning the mapping between the inputs and occupancy map in a single step, lacking the ability to gradually refine the occupancy map and the reasonable scene imaginative capacity to complete the local regions somewhere. In this paper, we introduce OccGen, a simple yet powerful generative perception model for the task of 3D semantic occupancy prediction. OccGen adopts a ”noise-to-occupancy” generative paradigm, progressively inferring and refining the occupancy map by predicting and eliminating noise originating from a random Gaussian distribution. OccGen consists of two main components: a conditional encoder that is capable of processing multi-modal inputs, and a progressive refinement decoder that applies diffusion denoising using the multi-modal features as conditions. A key insight of this generative pipeline is that the diffusion denoising process is naturally able to model the coarse-to-fine refinement of the dense 3D occupancy map, therefore producing more detailed predictions. Extensive experiments on several occupancy benchmarks demonstrate the effectiveness of the proposed method compared to the state-of-the-art methods. For instance, OccGen relatively enhances the mIoU by 9.5%, 6.3%, and 13.3% on nuScenes-Occupancy dataset under the muli-modal, LiDAR-only, and camera-only settings, respectively. Moreover, as a generative perception model, OccGen exhibits desirable properties that discriminative models cannot achieve, such as providing uncertainty estimates alongside its multiple-step predictions.

arxiv情報

著者 Guoqing Wang,Zhongdao Wang,Pin Tang,Jilai Zheng,Xiangxuan Ren,Bailan Feng,Chao Ma
発行日 2024-04-23 13:20:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク