要約
我々は、RGB画像のみを入力して、高速なレンダリング速度でコンパクトな3D整合性のあるシーンセグメンテーションを行う手法であるCompact and Swift Segmenting 3D Gaussians(CoSSegGaussians)を提案します。
これまでの NeRF ベースの 3D セグメンテーション手法は、暗黙的またはボクセルのニューラル シーン表現と、時間のかかるレイマーチング ボリューム レンダリングに依存していました。
最近の 3D ガウス スプラッティングはレンダリング速度を大幅に向上させますが、既存のガウス ベースのセグメンテーション方法 (例: ガウス グループ化) は、特にゼロショット セグメンテーションにおいてコンパクトなセグメンテーション マスクを提供できません。これは主に、単純な処理に対する堅牢性とコンパクト性の欠如が原因です。
一貫性のない 2D 機械生成ラベルが発生した場合に、学習可能なパラメーターを各ガウスに割り当てます。
私たちの方法は、浅いデコードネットワークを使用して各ガウスポイントの融合された空間的および意味的に意味のある特徴をマッピングすることにより、コンパクトで信頼性の高いゼロショットシーンセグメンテーションを迅速に達成することを目的としています。
具体的には、私たちの方法はまず、RGB画像の監視の下でガウス点の位置、共分散、および色の属性を最適化します。
ガウス位置特定の後、各ガウスへの非投影によって画像から抽出されたマルチスケール DINO 特徴を抽出し、高速点特徴処理ネットワーク (RandLA-Net) からの空間特徴と組み入れます。
次に、浅いデコード MLP がマルチスケール融合された特徴に適用され、コンパクトなセグメンテーションが得られます。
実験結果は、私たちのモデルがセマンティック セグメンテーション タスクとパノプティック セグメンテーション タスクの両方で他のセグメンテーション手法よりも優れているため、高品質のゼロショット シーン セグメンテーションを実行できる一方、NeRF ベースのセグメンテーションと比較してセグメンテーション時間の消費は約 10% のみであることを示しています。
コードとその他の結果は https://David-Dou.github.io/CoSSegGaussians で入手できます。
要約(オリジナル)
We propose Compact and Swift Segmenting 3D Gaussians(CoSSegGaussians), a method for compact 3D-consistent scene segmentation at fast rendering speed with only RGB images input. Previous NeRF-based 3D segmentation methods have relied on implicit or voxel neural scene representation and ray-marching volume rendering which are time consuming. Recent 3D Gaussian Splatting significantly improves the rendering speed, however, existing Gaussians-based segmentation methods(eg: Gaussian Grouping) fail to provide compact segmentation masks especially in zero-shot segmentation, which is mainly caused by the lack of robustness and compactness for straightforwardly assigning learnable parameters to each Gaussian when encountering inconsistent 2D machine-generated labels. Our method aims to achieve compact and reliable zero-shot scene segmentation swiftly by mapping fused spatial and semantically meaningful features for each Gaussian point with a shallow decoding network. Specifically, our method firstly optimizes Gaussian points’ position, convariance and color attributes under the supervision of RGB images. After Gaussian Locating, we distill multi-scale DINO features extracted from images through unprojection to each Gaussian, which is then incorporated with spatial features from the fast point features processing network, i.e. RandLA-Net. Then the shallow decoding MLP is applied to the multi-scale fused features to obtain compact segmentation. Experimental results show that our model can perform high-quality zero-shot scene segmentation, as our model outperforms other segmentation methods on both semantic and panoptic segmentation task, meanwhile consumes approximately only 10% segmenting time compared to NeRF-based segmentation. Code and more results will be available at https://David-Dou.github.io/CoSSegGaussians
arxiv情報
著者 | Bin Dou,Tianyu Zhang,Yongjia Ma,Zhaohui Wang,Zejian Yuan |
発行日 | 2024-01-11 14:05:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google