StereoScene: BEV-Assisted Stereo Matching Empowers 3D Semantic Scene Completion

要約

タイトル:StereoScene:BEV補助ステレオマッチングによる3Dセマンティックシーン補完の強化
要約:
– 3Dセマンティックシーン補完(SSC)は、不完全な観測から密集する3Dシーンを推定することを必要とする短絡的なタスクである。
– 以前の方法は、明示的に3Dジオメトリ入力を取り入れたり、モノクロームRGB画像背後の学習済み3D優先度に依存したりします。
– しかしながら、LiDARのような3Dセンサーは高価で侵入的であり、一方、モノクロームカメラは固有の曖昧さによる正確なジオメトリのモデリングについての課題に直面しています。
– この研究では、外部の3Dセンサーに頼らずに軽量カメラ入力を最大限に活用するStereoScene for 3D Semantic Scene Completion(SSC)を提案します。
– 主な洞察は、幾何学的な曖昧さを解決するためにステレオマッチングを活用することです。
– 一致しない領域に対する強さを改善するために、リッチなコンテキスト情報を持つバードズアイビュー(BEV)表現を導入することで、幻想能力を刺激するようにします。
– ステレオとBEV表現の上に、相互インタラクティブ集計(MIA)モジュールを慎重に設計してその力を十分に発揮させることが提案されます。
– 具体的には、相互的なガイダンスを通じて信頼性の高い予測を促進するために信頼度を再重視したBi-directional Interaction Transformer(BIT)を使用し、相補的な集計を容易にするためにDual Volume Aggregation(DVA)モジュールを設計します。
– SemanticKITTI上の実験結果は、提案されたStereoSceneが、ジオメトリで26.9%、意味で38.6%の相対改善を示し、最新のカメラベースの方法を大幅に上回ることを示しています。

要約(オリジナル)

3D semantic scene completion (SSC) is an ill-posed task that requires inferring a dense 3D scene from incomplete observations. Previous methods either explicitly incorporate 3D geometric input or rely on learnt 3D prior behind monocular RGB images. However, 3D sensors such as LiDAR are expensive and intrusive while monocular cameras face challenges in modeling precise geometry due to the inherent ambiguity. In this work, we propose StereoScene for 3D Semantic Scene Completion (SSC), which explores taking full advantage of light-weight camera inputs without resorting to any external 3D sensors. Our key insight is to leverage stereo matching to resolve geometric ambiguity. To improve its robustness in unmatched areas, we introduce bird’s-eye-view (BEV) representation to inspire hallucination ability with rich context information. On top of the stereo and BEV representations, a mutual interactive aggregation (MIA) module is carefully devised to fully unleash their power. Specifically, a Bi-directional Interaction Transformer (BIT) augmented with confidence re-weighting is used to encourage reliable prediction through mutual guidance while a Dual Volume Aggregation (DVA) module is designed to facilitate complementary aggregation. Experimental results on SemanticKITTI demonstrate that the proposed StereoScene outperforms the state-of-the-art camera-based methods by a large margin with a relative improvement of 26.9% in geometry and 38.6% in semantic.

arxiv情報

著者 Bohan Li,Yasheng Sun,Xin Jin,Wenjun Zeng,Zheng Zhu,Xiaoefeng Wang,Yunpeng Zhang,James Okae,Hang Xiao,Dalong Du
発行日 2023-03-30 09:09:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク