要約
3D セマンティック占有予測は、周囲のシーンのきめ細かいジオメトリとセマンティクスを予測する、堅牢なビジョン中心の自動運転にとって重要なタスクです。
既存の手法のほとんどは、高密度のグリッドベースのシーン表現を活用しており、運転シーンの空間的な疎さを見落としています。
3D セマンティック ガウスはオブジェクト中心のスパースな代替手段として機能しますが、ほとんどのガウスは依然として空の領域を低効率で記述します。
これに対処するために、各ガウスをその近傍が占有されている確率分布として解釈し、確率的乗算に従って全体の幾何学形状を導出する確率的ガウス重ね合わせモデルを提案します。
さらに、セマンティクス計算には正確なガウス混合モデルを採用し、ガウスの不必要な重複を回避します。
空ではない領域でガウス分布を効果的に初期化するために、表面の深さの代わりにピクセル位置に合わせた占有分布を学習する分布ベースの初期化モジュールを設計します。
私たちは nuScenes と KITTI-360 データセットで広範な実験を実施しており、GaussianFormer-2 は高効率で最先端のパフォーマンスを実現しています。
コード: https://github.com/huang-yh/GaussianFormer。
要約(オリジナル)
3D semantic occupancy prediction is an important task for robust vision-centric autonomous driving, which predicts fine-grained geometry and semantics of the surrounding scene. Most existing methods leverage dense grid-based scene representations, overlooking the spatial sparsity of the driving scenes. Although 3D semantic Gaussian serves as an object-centric sparse alternative, most of the Gaussians still describe the empty region with low efficiency. To address this, we propose a probabilistic Gaussian superposition model which interprets each Gaussian as a probability distribution of its neighborhood being occupied and conforms to probabilistic multiplication to derive the overall geometry. Furthermore, we adopt the exact Gaussian mixture model for semantics calculation to avoid unnecessary overlapping of Gaussians. To effectively initialize Gaussians in non-empty region, we design a distribution-based initialization module which learns the pixel-aligned occupancy distribution instead of the depth of surfaces. We conduct extensive experiments on nuScenes and KITTI-360 datasets and our GaussianFormer-2 achieves state-of-the-art performance with high efficiency. Code: https://github.com/huang-yh/GaussianFormer.
arxiv情報
著者 | Yuanhui Huang,Amonnut Thammatadatrakoon,Wenzhao Zheng,Yunpeng Zhang,Dalong Du,Jiwen Lu |
発行日 | 2024-12-05 17:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google