Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion

要約

3Dセマンティックシーン補完(SSC)は、限られた観測結果から高密度の3Dシーンを推測する必要がある非ポーズド知覚タスクである。これまでのカメラベースの手法は、固有の幾何学的曖昧性と不完全な観測により、正確な意味シーンの予測に苦戦している。本論文では、SSCにおけるこのような問題に対処するために、ステレオマッチング技術と鳥瞰(BEV)表現学習に頼る。ステレオマッチングはエピポーラ制約により幾何学的曖昧性を緩和し、BEV表現はグローバルな意味文脈により不可視領域の幻覚能力を高める。しかしながら、ステレオ形状とBEV特徴との間には固有の表現ギャップがあるため、SSCの高密度予測タスクのためにこれらを橋渡しすることは自明ではない。そこで我々は、BRGSceneと呼ばれる統一された占有率ベースのフレームワークを開発し、信頼性の高い意味的シーン補完のために、高密度の3Dボリュームを用いてこれら2つの表現を効果的に橋渡しする。具体的には、ステレオジオメトリとBEV特徴のピクセルレベルでの信頼性の高い集約のために、新しい相互インタラクティブアンサンブル(MIE)ブロックを設計する。MIEブロック内では、信頼度再重み付けにより強化された双方向信頼性インタラクション(BRI)モジュールを採用し、相互誘導によるきめ細かなインタラクションを促す。さらに、デュアルボリュームアンサンブル(DVE)モジュールを導入し、チャンネルごとの再較正とマルチグループ投票による補完的な集約を促進する。本手法は、SemanticKITTIの意味的シーン補完において、公開されている全てのカメラベースの手法を凌駕している。我々のコードはhttps://github.com/Arlo0o/StereoScene。

要約(オリジナル)

3D semantic scene completion (SSC) is an ill-posed perception task that requires inferring a dense 3D scene from limited observations. Previous camera-based methods struggle to predict accurate semantic scenes due to inherent geometric ambiguity and incomplete observations. In this paper, we resort to stereo matching technique and bird’s-eye-view (BEV) representation learning to address such issues in SSC. Complementary to each other, stereo matching mitigates geometric ambiguity with epipolar constraint while BEV representation enhances the hallucination ability for invisible regions with global semantic context. However, due to the inherent representation gap between stereo geometry and BEV features, it is non-trivial to bridge them for dense prediction task of SSC. Therefore, we further develop a unified occupancy-based framework dubbed BRGScene, which effectively bridges these two representations with dense 3D volumes for reliable semantic scene completion. Specifically, we design a novel Mutual Interactive Ensemble (MIE) block for pixel-level reliable aggregation of stereo geometry and BEV features. Within the MIE block, a Bi-directional Reliable Interaction (BRI) module, enhanced with confidence re-weighting, is employed to encourage fine-grained interaction through mutual guidance. Besides, a Dual Volume Ensemble (DVE) module is introduced to facilitate complementary aggregation through channel-wise recalibration and multi-group voting. Our method outperforms all published camera-based methods on SemanticKITTI for semantic scene completion. Our code is available on https://github.com/Arlo0o/StereoScene.

arxiv情報

著者 Bohan Li,Yasheng Sun,Zhujin Liang,Dalong Du,Zhuanghui Zhang,Xiaofeng Wang,Yunnan Wang,Xin Jin,Wenjun Zeng
発行日 2024-05-06 15:14:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク