要約
いくつかの自己教師ありクロスモーダル学習アプローチは、最近、点群表現を強化するための画像信号の可能性を実証しました。
ただし、クロスモーダルなローカルおよびグローバル対応を自己管理型の方法で直接モデル化する方法については、依然として問題が残っています。
それを解決するために、自己教師付き点群表現学習のモダリティ全体でマルチスケール対応をモデル化する新しいクロスモーダル手法である PointCMC を提案しました。
具体的には、PointCMC は、(1) 最適化されたクロスモーダル ローカル幾何学的特徴を通じてローカル対応を学習するローカル ツー ローカル (L2L) モジュール、(2) を目的とするローカル ツー グローバル (L2G) モジュールで構成されます。
ローカルとグローバルの識別を介してモダリティ全体でローカルとグローバルの特徴間の対応を学習し、(3) ポイント クラウドと画像の間の補助的なグローバル コントラスト損失を利用して高レベルのセマンティック対応を学習するグローバルからグローバル (G2G) モジュール
.
広範な実験結果は、3D オブジェクトの分類やセグメンテーションなどのさまざまなダウンストリーム タスクにおいて、私たちのアプローチが既存の最先端の方法よりも優れていることを示しています。
コードは承認され次第、公開されます。
要約(オリジナル)
Some self-supervised cross-modal learning approaches have recently demonstrated the potential of image signals for enhancing point cloud representation. However, it remains a question on how to directly model cross-modal local and global correspondences in a self-supervised fashion. To solve it, we proposed PointCMC, a novel cross-modal method to model multi-scale correspondences across modalities for self-supervised point cloud representation learning. In particular, PointCMC is composed of: (1) a local-to-local (L2L) module that learns local correspondences through optimized cross-modal local geometric features, (2) a local-to-global (L2G) module that aims to learn the correspondences between local and global features across modalities via local-global discrimination, and (3) a global-to-global (G2G) module, which leverages auxiliary global contrastive loss between the point cloud and image to learn high-level semantic correspondences. Extensive experiment results show that our approach outperforms existing state-of-the-art methods in various downstream tasks such as 3D object classification and segmentation. Code will be made publicly available upon acceptance.
arxiv情報
著者 | Honggu Zhou,Xiaogang Peng,Jiawei Mao,Zizhao Wu,Ming Zeng |
発行日 | 2022-11-23 15:06:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google