OpenOcc: Open Vocabulary 3D Scene Reconstruction via Occupancy Representation

要約

3D 再構成は、移動ロボットの自律ナビゲーション分野で広く使用されています。
ただし、前者の研究では、オープンワールドのシーンを理解する機能がなく、基本的な幾何構造を提供することしかできず、人間のインタラクションや視覚的なナビゲーションなどの高度なタスクが制限されます。
さらに、従来の 3D シーン理解アプローチは、監視付きの単一タスクのモデルをトレーニングするために、高価なラベル付き 3D データセットに依存しています。
したがって、ゼロショットシーン理解による幾何学的再構成、つまりオープンボキャブラリーの 3D 理解と再構成は、移動ロボットの将来の開発にとって重要です。
この論文では、3D シーンの再構成と神経放射フィールドを使用したオープンな語彙理解を統合する新しいフレームワークである OpenOcc を提案します。
占有表現を使用してシーンの幾何学的構造をモデル化し、ゼロショット推論のためのボリューム レンダリングを介して、事前トレーニングされたオープン語彙モデルを 3D 言語フィールドに抽出します。
さらに、抽出された特徴における一貫性のない測定によって引き起こされる言語フィールド表現の縮退の問題を軽減するために、新しい意味認識信頼伝播 (SCP) 方法が提案されました。
実験結果は、私たちのアプローチが 3D シーン理解タスク、特に小さくて尾の長いオブジェクトにおいて競争力のあるパフォーマンスを達成することを示しています。

要約(オリジナル)

3D reconstruction has been widely used in autonomous navigation fields of mobile robotics. However, the former research can only provide the basic geometry structure without the capability of open-world scene understanding, limiting advanced tasks like human interaction and visual navigation. Moreover, traditional 3D scene understanding approaches rely on expensive labeled 3D datasets to train a model for a single task with supervision. Thus, geometric reconstruction with zero-shot scene understanding i.e. Open vocabulary 3D Understanding and Reconstruction, is crucial for the future development of mobile robots. In this paper, we propose OpenOcc, a novel framework unifying the 3D scene reconstruction and open vocabulary understanding with neural radiance fields. We model the geometric structure of the scene with occupancy representation and distill the pre-trained open vocabulary model into a 3D language field via volume rendering for zero-shot inference. Furthermore, a novel semantic-aware confidence propagation (SCP) method has been proposed to relieve the issue of language field representation degeneracy caused by inconsistent measurements in distilled features. Experimental results show that our approach achieves competitive performance in 3D scene understanding tasks, especially for small and long-tail objects.

arxiv情報

著者 Haochen Jiang,Yueming Xu,Yihan Zeng,Hang Xu,Wei Zhang,Jianfeng Feng,Li Zhang
発行日 2024-08-09 09:00:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク