MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D Point Cloud Understanding

要約

知覚では、複数の感覚情報が統合されて、2D ビューからの視覚情報が 3D オブジェクトにマッピングされます。これは、3D 環境での理解に役立ちます。
しかし、さまざまな角度からレンダリングされた単一の 2D ビューに関しては、限られた部分的な情報しか提供できません。マルチビュー 2D 情報の豊富さと価値により、3D オブジェクトに優れた自己教師信号を提供できます。
この論文では、モーダル内およびモーダル間の類似性目標によって駆動される、新しい自己教師付き点群表現学習方法 MM-Point を提案します。
MM-Point の核心は、3D オブジェクトと複数の 2D ビュー間のマルチモーダル インタラクションと同時送信にあります。
対照学習に基づいた 2D マルチビュー情報の一貫したクロスモーダル目標をより効果的に同時に実行するために、マルチ MLP およびマルチレベル拡張戦略をさらに提案します。
慎重に設計された変換戦略を通じて、2D マルチビューにおけるマルチレベルの不変性をさらに学習します。
MM-Point は、さまざまなダウンストリーム タスクで最先端 (SOTA) のパフォーマンスを実証します。
たとえば、合成データセット ModelNet40 では 92.4% の最高精度を達成し、実世界のデータセット ScanObjectNN では 87.8% の最高精度を達成しており、完全教師あり手法に匹敵します。
さらに、少数ショット分類、3D パーツ セグメンテーション、3D セマンティック セグメンテーションなどのタスクでもその有効性を実証します。

要約(オリジナル)

In perception, multiple sensory information is integrated to map visual information from 2D views onto 3D objects, which is beneficial for understanding in 3D environments. But in terms of a single 2D view rendered from different angles, only limited partial information can be provided.The richness and value of Multi-view 2D information can provide superior self-supervised signals for 3D objects. In this paper, we propose a novel self-supervised point cloud representation learning method, MM-Point, which is driven by intra-modal and inter-modal similarity objectives. The core of MM-Point lies in the Multi-modal interaction and transmission between 3D objects and multiple 2D views at the same time. In order to more effectively simultaneously perform the consistent cross-modal objective of 2D multi-view information based on contrastive learning, we further propose Multi-MLP and Multi-level Augmentation strategies. Through carefully designed transformation strategies, we further learn Multi-level invariance in 2D Multi-views. MM-Point demonstrates state-of-the-art (SOTA) performance in various downstream tasks. For instance, it achieves a peak accuracy of 92.4% on the synthetic dataset ModelNet40, and a top accuracy of 87.8% on the real-world dataset ScanObjectNN, comparable to fully supervised methods. Additionally, we demonstrate its effectiveness in tasks such as few-shot classification, 3D part segmentation and 3D semantic segmentation.

arxiv情報

著者 Hai-Tao Yu,Mofei Song
発行日 2024-02-15 15:10:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク