CoSSegGaussians: Compact and Swift Scene Segmenting 3D Gaussians with Dual Feature Fusion

要約

我々は、RGB画像のみを入力して、高速なレンダリング速度でコンパクトな3D整合性のあるシーンセグメンテーションを行う手法であるCompact and Swift Segmenting 3D Gaussians(CoSSegGaussians)を提案します。
これまでの NeRF ベースのセグメンテーション手法は、時間のかかるニューラル シーンの最適化に依存していました。
最近の 3D ガウス スプラッティングでは速度が著しく向上しましたが、既存のガウス ベースのセグメンテーション手法は、特にゼロショット セグメンテーションにおいて、コンパクトなマスクを生成するのに苦労しています。
この問題はおそらく、学習可能なパラメータを各ガウス分布に直接割り当てることに起因しており、その結果、ビュー間で一貫性のない 2D 機械生成ラベルに対する堅牢性が欠如しています。
私たちの方法は、ガウシアンのセグメンテーション フィールドとしてデュアル フィーチャー フュージョン ネットワークを採用することで、この問題に対処することを目的としています。
具体的には、まず RGB の監視下で 3D ガウスを最適化します。
ガウス位置特定の後、画像から抽出された DINO 特徴は明示的な非投影を通じて適用され、さらに効率的な点群処理ネットワークからの空間特徴が組み込まれます。
特徴集約は、コンパクトなセグメンテーション特徴のためのグローバルからローカルへの戦略でそれらを融合するために利用されます。
実験結果は、私たちのモデルがセマンティックおよびパノプティック ゼロショット セグメンテーション タスクの両方でベースラインを上回っている一方で、消費する推論時間は NeRF ベースの手法と比較して 10\% 未満であることを示しています。
コードとその他の結果は https://David-Dou.github.io/CoSSegGaussians で入手できます。

要約(オリジナル)

We propose Compact and Swift Segmenting 3D Gaussians(CoSSegGaussians), a method for compact 3D-consistent scene segmentation at fast rendering speed with only RGB images input. Previous NeRF-based segmentation methods have relied on time-consuming neural scene optimization. While recent 3D Gaussian Splatting has notably improved speed, existing Gaussian-based segmentation methods struggle to produce compact masks, especially in zero-shot segmentation. This issue probably stems from their straightforward assignment of learnable parameters to each Gaussian, resulting in a lack of robustness against cross-view inconsistent 2D machine-generated labels. Our method aims to address this problem by employing Dual Feature Fusion Network as Gaussians’ segmentation field. Specifically, we first optimize 3D Gaussians under RGB supervision. After Gaussian Locating, DINO features extracted from images are applied through explicit unprojection, which are further incorporated with spatial features from the efficient point cloud processing network. Feature aggregation is utilized to fuse them in a global-to-local strategy for compact segmentation features. Experimental results show that our model outperforms baselines on both semantic and panoptic zero-shot segmentation task, meanwhile consumes less than 10\% inference time compared to NeRF-based methods. Code and more results will be available at https://David-Dou.github.io/CoSSegGaussians.

arxiv情報

著者 Bin Dou,Tianyu Zhang,Yongjia Ma,Zhaohui Wang,Zejian Yuan
発行日 2024-01-25 11:51:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク