GNeSF: Generalizable Neural Semantic Fields

要約

ニューラル暗黙的表現に基づく 3D シーン セグメンテーションは、2D 監視のみでトレーニングするという利点を備えて最近登場しました。
ただし、既存のアプローチでは依然としてコストのかかるシーンごとの最適化が必要であり、推論中に新しいシーンへの一般化ができません。
この問題を回避するために、暗黙的表現に基づいた一般化可能な 3D セグメンテーション フレームワークを導入します。
具体的には、私たちのフレームワークは、空間情報だけでなくマルチビュー画像の特徴とセマンティックマップを入力として取り込み、シーン固有の幾何学的情報とセマンティック情報への過剰適合を回避します。
我々は、3D ポイントごとに異なるビューからの 2D セマンティック情報を集約するための新しいソフト投票メカニズムを提案します。
画像の特徴に加えて、ビューの差異情報も投票スコアを予測するためにフレームワークにエンコードされます。
直感的には、これにより、近くのビューからの意味情報が、遠くのビューと比較してより多く寄与することが可能になります。
さらに、可視性モジュールは、遮蔽されたビューから有害な情報を検出して除外するように設計されています。
提案した方法の一般化可能性により、2D セマンティック監視のみを使用して、セマンティック マップを合成したり、新しいシーンの 3D セマンティック セグメンテーションを実行したりできます。
実験結果は、私たちのアプローチがシーン固有のアプローチと同等のパフォーマンスを達成することを示しています。
さらに重要なことは、私たちのアプローチは、2D アノテーションのみを使用した既存の強力な監視ベースのアプローチよりも優れたパフォーマンスを発揮できることです。
私たちのソース コードは https://github.com/HLinChen/GNeSF から入手できます。

要約(オリジナル)

3D scene segmentation based on neural implicit representation has emerged recently with the advantage of training only on 2D supervision. However, existing approaches still requires expensive per-scene optimization that prohibits generalization to novel scenes during inference. To circumvent this problem, we introduce a generalizable 3D segmentation framework based on implicit representation. Specifically, our framework takes in multi-view image features and semantic maps as the inputs instead of only spatial information to avoid overfitting to scene-specific geometric and semantic information. We propose a novel soft voting mechanism to aggregate the 2D semantic information from different views for each 3D point. In addition to the image features, view difference information is also encoded in our framework to predict the voting scores. Intuitively, this allows the semantic information from nearby views to contribute more compared to distant ones. Furthermore, a visibility module is also designed to detect and filter out detrimental information from occluded views. Due to the generalizability of our proposed method, we can synthesize semantic maps or conduct 3D semantic segmentation for novel scenes with solely 2D semantic supervision. Experimental results show that our approach achieves comparable performance with scene-specific approaches. More importantly, our approach can even outperform existing strong supervision-based approaches with only 2D annotations. Our source code is available at: https://github.com/HLinChen/GNeSF.

arxiv情報

著者 Hanlin Chen,Chen Li,Mengqi Guo,Zhiwen Yan,Gim Hee Lee
発行日 2023-10-24 10:40:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク