GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding

要約

シーンの理解と表現のために NeRF を下流の知覚タスクに適用することはますます一般的になりつつあります。
既存のほとんどの方法は、セマンティック NeRF を構築するための追加のレンダリング タスク \textit{i.e.}、つまり「ラベル レンダリング」タスクとしてセマンティック予測を扱います。
ただし、これらの方法では、レンダリングされたイメージのコンテキスト情報を考慮せずにピクセルごとにセマンティック/インスタンス ラベルをレンダリングするため、通常、オブジェクト内の境界が不明瞭なセグメンテーションやピクセルの異常なセグメンテーションが発生します。
この問題を解決するために、私たちは、広く使用されているセグメンテーション モデルと NeRF を統一フレームワークの下で互換性を持って動作させる新しいパイプラインである Generalized Perception NeRF (GP-NeRF) を提案し、コンテキストを認識した 3D シーンの認識を促進します。
この目標を達成するために、新しいビューのために放射輝度とセマンティック埋め込みフィールドを統合するトランスフォーマーを導入し、両方のフィールドの統合ボリューム レンダリングを容易にします。
さらに、意味領域の識別と品質、および幾何学的一貫性の維持を強化するために、2 つの自己蒸留メカニズム、つまり、意味論的蒸留損失と深さ誘導型意味論的蒸留損失を提案します。
評価では、合成データセットと現実世界のデータセットの両方を使用して、2 つの認識タスク (\textit{つまり、セマンティックとインスタンスのセグメンテーション) の下で実験的な比較を実行します。
特に、私たちの方法は、一般化されたセマンティック セグメンテーション、微調整セマンティック セグメンテーション、およびインスタンス セグメンテーションにおいて、SOTA アプローチよりもそれぞれ 6.94\%、11.76\%、および 8.47\% 優れています。

要約(オリジナル)

Applying NeRF to downstream perception tasks for scene understanding and representation is becoming increasingly popular. Most existing methods treat semantic prediction as an additional rendering task, \textit{i.e.}, the ‘label rendering’ task, to build semantic NeRFs. However, by rendering semantic/instance labels per pixel without considering the contextual information of the rendered image, these methods usually suffer from unclear boundary segmentation and abnormal segmentation of pixels within an object. To solve this problem, we propose Generalized Perception NeRF (GP-NeRF), a novel pipeline that makes the widely used segmentation model and NeRF work compatibly under a unified framework, for facilitating context-aware 3D scene perception. To accomplish this goal, we introduce transformers to aggregate radiance as well as semantic embedding fields jointly for novel views and facilitate the joint volumetric rendering of both fields. In addition, we propose two self-distillation mechanisms, i.e., the Semantic Distill Loss and the Depth-Guided Semantic Distill Loss, to enhance the discrimination and quality of the semantic field and the maintenance of geometric consistency. In evaluation, we conduct experimental comparisons under two perception tasks (\textit{i.e.} semantic and instance segmentation) using both synthetic and real-world datasets. Notably, our method outperforms SOTA approaches by 6.94\%, 11.76\%, and 8.47\% on generalized semantic segmentation, finetuning semantic segmentation, and instance segmentation, respectively.

arxiv情報

著者 Hao Li,Dingwen Zhang,Yalun Dai,Nian Liu,Lechao Cheng,Jingfeng Li,Jingdong Wang,Junwei Han
発行日 2023-11-20 15:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク