Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives

要約

このペーパーでは、トレーニング中に目に見えないクラス ラベルを使用できないトランスダクティブ ゼロ ショット ポイント クラウド セマンティック セグメンテーションを調査します。
実際、3D の幾何学的要素は、3D オブジェクト タイプを推論するための重要な手がかりです。
2 つのカテゴリが同様の幾何学的プリミティブを共有している場合、それらは同様のセマンティック表現も持ちます。
この考察に基づいて、私たちは、目に見えるカテゴリと見えないカテゴリのオブジェクトで共有される幾何学的プリミティブを学習するための新しいフレームワークを提案します。学習された幾何学的プリミティブは、目に見えるカテゴリから見えないカテゴリに知識を転送するために提供されます。
具体的には、学習可能なプロトタイプのグループが、逆伝播によって幾何プリミティブを自動的にエンコードします。
次に、点の視覚的表現は、プロトタイプに対するその特徴の類似性ベクトルとして定式化されます。これは、見られるカテゴリと見えないカテゴリの両方のセマンティック キューを意味します。
さらに、複数の幾何学的プリミティブで構成される 3D オブジェクトを考慮して、視覚的表現のきめの細かい一致のための混合分散埋め込みとしてセマンティック表現を定式化します。
最後に、幾何学的プリミティブを効果的に学習し、誤分類の問題を軽減するために、視覚的表現と意味表現を調整するための新しい未知認識 infoNCE 損失を提案します。
その結果、セマンティック表現に導かれて、ネットワークは幾何学的プリミティブで表現された新しいオブジェクトを認識します。
広範な実験により、S3DIS、ScanNet、および SemanticKITTI データセットで 17.8%、30.4%、および 9.2% の改善が見られ、我々の方法が調和平均交差オーバーユニオン (hIoU) で他の最先端の方法よりも大幅に優れていることが示されています。
、 それぞれ。
コードが公開されます。

要約(オリジナル)

We investigate transductive zero-shot point cloud semantic segmentation in this paper, where unseen class labels are unavailable during training. Actually, the 3D geometric elements are essential cues to reason the 3D object type. If two categories share similar geometric primitives, they also have similar semantic representations. Based on this consideration, we propose a novel framework to learn the geometric primitives shared in seen and unseen categories’ objects, where the learned geometric primitives are served for transferring knowledge from seen to unseen categories. Specifically, a group of learnable prototypes automatically encode geometric primitives via back-propagation. Then, the point visual representation is formulated as the similarity vector of its feature to the prototypes, which implies semantic cues for both seen and unseen categories. Besides, considering a 3D object composed of multiple geometric primitives, we formulate the semantic representation as a mixture-distributed embedding for the fine-grained match of visual representation. In the end, to effectively learn the geometric primitives and alleviate the misclassification issue, we propose a novel unknown-aware infoNCE loss to align the visual and semantic representation. As a result, guided by semantic representations, the network recognizes the novel object represented with geometric primitives. Extensive experiments show that our method significantly outperforms other state-of-the-art methods in the harmonic mean-intersection-over-union (hIoU), with the improvement of 17.8%, 30.4% and 9.2% on S3DIS, ScanNet and SemanticKITTI datasets, respectively. Codes will be released.

arxiv情報

著者 Runnan Chen,Xinge Zhu,Nenglun Chen,Wei Li,Yuexin Ma,Ruigang Yang,Wenping Wang
発行日 2022-10-18 15:06:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク