PCF-Lift: Panoptic Lifting by Probabilistic Contrastive Fusion

要約

パノプティック リフティングは、2D パノプティック セグメンテーションをマルチビューから 3D シーンに投影解除することで、3D パノプティック セグメンテーション タスクに対処する効果的な手法です。
ただし、結果の品質は 2D セグメンテーションに大きく依存しており、ノイズが多くエラーが発生しやすいため、複雑なシーンではパフォーマンスが大幅に低下することがよくあります。
この作業では、確率的対照融合 (PCF) に基づいて PCF-Lift という新しいパイプラインを設計し、パイプライン全体に確率的特徴を学習して埋め込み、不正確なセグメンテーションと一貫性のないインスタンス ID を積極的に考慮します。
技術的には、まず、多変量ガウス分布を通じて確率的特徴の埋め込みをモデル化します。
確率的特徴を融合するために、確率積カーネルを対比損失公式に組み込み、ビュー間の制約を設計して、異なるビュー間での特徴の一貫性を高めます。
推論のために、一貫したパノプティック セグメンテーション結果を生成するために、プロトタイプの特徴を基礎となる 3D オブジェクト インスタンスと効果的に関連付けるための新しい確率的クラスタリング手法を導入します。
さらに、提案された確率的解決策の優位性を正当化する理論的分析を提供します。
広範な実験を実施することにより、当社の PCF リフトは、ScanNet データセットや困難な Messy Room データセット (シーンレベルの PQ の 4.4% 向上) などの広く使用されているベンチマークで最先端の手法を大幅に上回るパフォーマンスを示しただけでなく、次のことを実証しました。
さまざまな 2D セグメンテーション モデルやさまざまなレベルの手作りノイズを組み込む場合の強力な堅牢性。

要約(オリジナル)

Panoptic lifting is an effective technique to address the 3D panoptic segmentation task by unprojecting 2D panoptic segmentations from multi-views to 3D scene. However, the quality of its results largely depends on the 2D segmentations, which could be noisy and error-prone, so its performance often drops significantly for complex scenes. In this work, we design a new pipeline coined PCF-Lift based on our Probabilis-tic Contrastive Fusion (PCF) to learn and embed probabilistic features throughout our pipeline to actively consider inaccurate segmentations and inconsistent instance IDs. Technical-wise, we first model the probabilistic feature embeddings through multivariate Gaussian distributions. To fuse the probabilistic features, we incorporate the probability product kernel into the contrastive loss formulation and design a cross-view constraint to enhance the feature consistency across different views. For the inference, we introduce a new probabilistic clustering method to effectively associate prototype features with the underlying 3D object instances for the generation of consistent panoptic segmentation results. Further, we provide a theoretical analysis to justify the superiority of the proposed probabilistic solution. By conducting extensive experiments, our PCF-lift not only significantly outperforms the state-of-the-art methods on widely used benchmarks including the ScanNet dataset and the challenging Messy Room dataset (4.4% improvement of scene-level PQ), but also demonstrates strong robustness when incorporating various 2D segmentation models or different levels of hand-crafted noise.

arxiv情報

著者 Runsong Zhu,Shi Qiu,Qianyi Wu,Ka-Hei Hui,Pheng-Ann Heng,Chi-Wing Fu
発行日 2024-10-14 16:06:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク