GaussianLSS — Toward Real-world BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting

要約

バードアイビュー(BEV)の認識は、複数のビュー画像を融合するための統一された表現を提供し、予測や計画などの幅広いダウンストリーム自律運転タスクを可能にするため、大きな注目を集めています。
最近の最先端のモデルは、明示的な深さ推定をバイパスするクエリ学習としてBEV知覚を定式化する投影ベースの方法を利用しています。
このパラダイムでは有望な進歩を観察しますが、不確実性のモデリングがないことと高価な計算要件のために、それらはまだ現実世界のアプリケーションに達していません。
この作業では、非難に基づいた方法、特にリフトスプラットシュート(LSS)パラダイムを再訪する新しい不確実性を意識したBEV知覚フレームワークであるGaussianlssを紹介し、深さの不確実性モデリングでそれらを強化します。
Gaussianlssは、ソフト深度平均を学習し、オブジェクトの範囲を暗黙的にキャプチャする深度分布の分散を計算することにより、空間分散を表します。
次に、深さ分布を3Dガウス分布に変換し、それらをラスター化して、不確実なBEV機能を構築します。
NuscenesデータセットでGaussianlssを評価し、不回しの方法と比較して最先端のパフォーマンスを達成します。
特に、速度が2.5倍速く、メモリ効率を実行し、投影ベースの方法と比較して0.3倍少ないメモリを使用して、0.4%のIOU差でのみ競争力のあるパフォーマンスを達成します。

要約(オリジナル)

Bird’s-eye view (BEV) perception has gained significant attention because it provides a unified representation to fuse multiple view images and enables a wide range of down-stream autonomous driving tasks, such as forecasting and planning. Recent state-of-the-art models utilize projection-based methods which formulate BEV perception as query learning to bypass explicit depth estimation. While we observe promising advancements in this paradigm, they still fall short of real-world applications because of the lack of uncertainty modeling and expensive computational requirement. In this work, we introduce GaussianLSS, a novel uncertainty-aware BEV perception framework that revisits unprojection-based methods, specifically the Lift-Splat-Shoot (LSS) paradigm, and enhances them with depth un-certainty modeling. GaussianLSS represents spatial dispersion by learning a soft depth mean and computing the variance of the depth distribution, which implicitly captures object extents. We then transform the depth distribution into 3D Gaussians and rasterize them to construct uncertainty-aware BEV features. We evaluate GaussianLSS on the nuScenes dataset, achieving state-of-the-art performance compared to unprojection-based methods. In particular, it provides significant advantages in speed, running 2.5x faster, and in memory efficiency, using 0.3x less memory compared to projection-based methods, while achieving competitive performance with only a 0.4% IoU difference.

arxiv情報

著者 Shu-Wei Lu,Yi-Hsuan Tsai,Yi-Ting Chen
発行日 2025-04-02 17:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク