要約
インタラクティブな3Dセグメンテーションは、ユーザーが提供するクリックを組み込むことにより、複雑な3Dシーンで正確なオブジェクトマスクを生成するための有望なソリューションとして浮上しています。
ただし、2つの重要な課題は未定のままです。(1)まばらなユーザークリックから効果的に一般化して正確なセグメンテーションを作成し、(2)予測不確実性を定量化して、信頼できない領域を特定するのに役立ちます。
この作業では、これらの課題に対処するために神経プロセス(NP)に基づいた新しい確率的フレームワークであるNPISEG3Dを提案します。
具体的には、NPISEG3Dは、グローバルコンテキストとオブジェクト固有の特性の両方をキャプチャすることにより、シーン固有およびオブジェクト固有の潜在変数を備えた階層的潜在変数構造を導入し、少数のショット一般化を強化します。
さらに、オブジェクト固有の潜在変数を使用してクリックプロトタイプを適応的に調整する確率的プロトタイプ変調器を設計し、オブジェクト認識コンテキストをキャプチャして予測的な不確実性を定量化するモデルの能力を向上させます。
4つの3Dポイントクラウドデータセットでの実験は、NPISEG3Dがクリックを減らしながら、信頼できる不確実性の推定を提供しながら優れたセグメンテーションパフォーマンスを達成することを示しています。
要約(オリジナル)
Interactive 3D segmentation has emerged as a promising solution for generating accurate object masks in complex 3D scenes by incorporating user-provided clicks. However, two critical challenges remain underexplored: (1) effectively generalizing from sparse user clicks to produce accurate segmentation, and (2) quantifying predictive uncertainty to help users identify unreliable regions. In this work, we propose NPISeg3D, a novel probabilistic framework that builds upon Neural Processes (NPs) to address these challenges. Specifically, NPISeg3D introduces a hierarchical latent variable structure with scene-specific and object-specific latent variables to enhance few-shot generalization by capturing both global context and object-specific characteristics. Additionally, we design a probabilistic prototype modulator that adaptively modulates click prototypes with object-specific latent variables, improving the model’s ability to capture object-aware context and quantify predictive uncertainty. Experiments on four 3D point cloud datasets demonstrate that NPISeg3D achieves superior segmentation performance with fewer clicks while providing reliable uncertainty estimations.
arxiv情報
著者 | Jie Liu,Pan Zhou,Zehao Xiao,Jiayi Shen,Wenzhe Yin,Jan-Jakob Sonke,Efstratios Gavves |
発行日 | 2025-05-26 16:46:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google