GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction

要約

3D 乗員予測は、周囲の状況を包括的に認識できるため、自動運転にとって重要です。
シーケンシャル入力を組み込むために、既存のメソッドのほとんどは前のフレームの表現を融合して現在の 3D 占有率を推測します。
しかし、それらは運転シナリオの連続性を考慮することができず、3D シーンの進化によって提供される強力な事前分布 (たとえば、動的なオブジェクトのみが移動する) を無視しています。
この論文では、シーンの進化を知覚に利用するためのワールドモデルベースのフレームワークを提案します。
3D 占有予測を、現在のセンサー入力を条件とした 4D 占有予測問題として再定式化します。
シーンの展開を次の 3 つの要素に分解します。1) 静的なシーンの自我の動きの調整。
2) 動的オブジェクトの局所的な動き。
3) 新たに観察されたシーンの完成。
次に、ガウス ワールド モデル (GaussianWorld) を使用してこれらの事前分布を明示的に利用し、現在の RGB 観測を考慮して 3D ガウス空間でのシーンの展開を推論します。
私たちは、広く使用されている nuScenes データセットに対するフレームワークの有効性を評価します。
GaussianWorld は、追加の計算を導入することなく、対応する単一フレームのパフォーマンスを mIoU で 2% 以上向上させます。
コード: https://github.com/zuosc19/GaussianWorld。

要約(オリジナル)

3D occupancy prediction is important for autonomous driving due to its comprehensive perception of the surroundings. To incorporate sequential inputs, most existing methods fuse representations from previous frames to infer the current 3D occupancy. However, they fail to consider the continuity of driving scenarios and ignore the strong prior provided by the evolution of 3D scenes (e.g., only dynamic objects move). In this paper, we propose a world-model-based framework to exploit the scene evolution for perception. We reformulate 3D occupancy prediction as a 4D occupancy forecasting problem conditioned on the current sensor input. We decompose the scene evolution into three factors: 1) ego motion alignment of static scenes; 2) local movements of dynamic objects; and 3) completion of newly-observed scenes. We then employ a Gaussian world model (GaussianWorld) to explicitly exploit these priors and infer the scene evolution in the 3D Gaussian space considering the current RGB observation. We evaluate the effectiveness of our framework on the widely used nuScenes dataset. Our GaussianWorld improves the performance of the single-frame counterpart by over 2% in mIoU without introducing additional computations. Code: https://github.com/zuosc19/GaussianWorld.

arxiv情報

著者 Sicheng Zuo,Wenzhao Zheng,Yuanhui Huang,Jie Zhou,Jiwen Lu
発行日 2024-12-13 18:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク