OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding

要約

この論文では、3D ポイントレベルのオープンボキャブラリーの理解を可能にする 3D Gaussian Splatting (3DGS) に基づく手法である OpenGaussian を紹介します。
私たちの主な動機は、既存の 3DGS ベースのオープンボキャブラリー手法が主に 2D ピクセルレベルの解析に焦点を当てていることを観察したことに由来しています。
これらの方法は、特徴の表現力が弱く、2D-3D 特徴の関連付けが不正確であるため、3D ポイントレベルのタスクには苦労します。
堅牢なフィーチャのプレゼンテーションと 3D ポイントレベルの理解を確保するために、最初にクロスフレーム関連付けのない SAM マスクを使用して、3D 一貫性を備えたインスタンス フィーチャをトレーニングします。
これらの機能は、オブジェクト内の一貫性とオブジェクト間の区別の両方を示します。
次に、これらの特徴を粗いレベルから細かいレベルまで離散化するための 2 段階のコードブックを提案します。
粗いレベルでは、3D ポイントの位置情報を考慮して位置ベースのクラスタリングを実現し、その後、詳細なレベルで洗練されます。
最後に、3D ポイントを 2D マスクにリンクし、さらに 2D CLIP フィーチャに関連付けられる、インスタンス レベルの 3D-2D フィーチャ関連付け方法を導入します。
オープンボキャブラリーに基づく 3D オブジェクトの選択、3D 点群の理解、クリックベースの 3D オブジェクトの選択、およびアブレーション研究を含む広範な実験により、提案された方法の有効性が実証されています。
プロジェクトページ:https://3d-aigc.github.io/OpenGaussian

要約(オリジナル)

This paper introduces OpenGaussian, a method based on 3D Gaussian Splatting (3DGS) capable of 3D point-level open vocabulary understanding. Our primary motivation stems from observing that existing 3DGS-based open vocabulary methods mainly focus on 2D pixel-level parsing. These methods struggle with 3D point-level tasks due to weak feature expressiveness and inaccurate 2D-3D feature associations. To ensure robust feature presentation and 3D point-level understanding, we first employ SAM masks without cross-frame associations to train instance features with 3D consistency. These features exhibit both intra-object consistency and inter-object distinction. Then, we propose a two-stage codebook to discretize these features from coarse to fine levels. At the coarse level, we consider the positional information of 3D points to achieve location-based clustering, which is then refined at the fine level. Finally, we introduce an instance-level 3D-2D feature association method that links 3D points to 2D masks, which are further associated with 2D CLIP features. Extensive experiments, including open vocabulary-based 3D object selection, 3D point cloud understanding, click-based 3D object selection, and ablation studies, demonstrate the effectiveness of our proposed method. Project page: https://3d-aigc.github.io/OpenGaussian

arxiv情報

著者 Yanmin Wu,Jiarui Meng,Haijie Li,Chenming Wu,Yahao Shi,Xinhua Cheng,Chen Zhao,Haocheng Feng,Errui Ding,Jingdong Wang,Jian Zhang
発行日 2024-06-04 07:42:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク