Toward Real-world BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting

要約

鳥瞰(BEV)知覚は、複数の視点画像を融合するための統一的な表現を提供し、予測や計画などの幅広い自律走行タスクを可能にするため、大きな注目を集めている。最近の最先端モデルは、投影ベースの手法を利用しており、BEV知覚をクエリ学習として定式化し、明示的な奥行き推定を回避している。このパラダイムでは有望な進歩が見られるが、不確実性モデリングの欠如と高価な計算要件のため、実世界への応用にはまだ不十分である。本研究では、非投影に基づく手法、特にLSS(Lift-Splat-Shoot)パラダイムを再検討し、奥行きの非確実性モデリングにより強化した、不確実性を考慮した新しいBEV知覚フレームワークであるGaussianLSSを紹介する。GaussianLSSは、ソフトな奥行き平均を学習し、奥行き分布の分散を計算することで、空間分散を表現する。次に、奥行き分布を3Dガウシアンに変換し、それらをラスタライズして、不確実性を考慮したBEV特徴を構築する。nuScenesデータセットでGaussianLSSを評価し、非投影ベースの手法と比較して最先端の性能を達成した。特に、GaussianLSSは、投影ベースの手法と比較して2.5倍高速に動作し、メモリ効率において0.3倍少ないメモリを使用しながら、わずか0.4%のIoU差で競争力のある性能を達成し、大きな利点を提供する。

要約(オリジナル)

Bird’s-eye view (BEV) perception has gained significant attention because it provides a unified representation to fuse multiple view images and enables a wide range of down-stream autonomous driving tasks, such as forecasting and planning. Recent state-of-the-art models utilize projection-based methods which formulate BEV perception as query learning to bypass explicit depth estimation. While we observe promising advancements in this paradigm, they still fall short of real-world applications because of the lack of uncertainty modeling and expensive computational requirement. In this work, we introduce GaussianLSS, a novel uncertainty-aware BEV perception framework that revisits unprojection-based methods, specifically the Lift-Splat-Shoot (LSS) paradigm, and enhances them with depth un-certainty modeling. GaussianLSS represents spatial dispersion by learning a soft depth mean and computing the variance of the depth distribution, which implicitly captures object extents. We then transform the depth distribution into 3D Gaussians and rasterize them to construct uncertainty-aware BEV features. We evaluate GaussianLSS on the nuScenes dataset, achieving state-of-the-art performance compared to unprojection-based methods. In particular, it provides significant advantages in speed, running 2.5x faster, and in memory efficiency, using 0.3x less memory compared to projection-based methods, while achieving competitive performance with only a 0.4% IoU difference.

arxiv情報

著者 Shu-Wei Lu,Yi-Hsuan Tsai,Yi-Ting Chen
発行日 2025-04-03 07:01:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク