要約
タイトル: 3D形状認識のためのMulti-view Cross-modal DistillationによるDeep Point Cloud Encodersの強化:PointMCD
要約:
– 3Dポイントクラウドとマルチビュー2D画像は、3Dオブジェクトの2つの基本的な表現モダリティであり、それぞれ幾何学構造と視覚的外観の異なるドメインから形状情報を記録している。現在の深層学習時代において、これら2つのデータモダリティをそれぞれカスタマイズされた3Dおよび2Dネットワークアーキテクチャによって処理することで、著しい進歩が達成されている。
– しかし、共通の3D形状認識ベンチマークにおいてリーディングパフォーマンスを発揮しているマルチビュー画像ベースの2Dビジュアルモデル化パラダイムとは異なり、点群ベースの3D幾何学的モデル化パラダイムは、不規則な幾何学信号から識別的な特徴を抽出することの困難さにより、学習能力が依然として不十分である。
– 本論文では、標準的なteacher-student destilationワークフロー下で、深い2Dイメージエンコーダから抽出された視覚的知識を転送することによって、深い3Dポイントクラウドエンコーダを強化する可能性を探究する。
– 一般的には、PointMCDという統一されたMulti-view Cross-modal Distillationアーキテクチャを提案し、事前学習された深いイメージエンコーダをteacher、深いポイントエンコーダをstudentとする。また、2Dビジュアルおよび3D幾何ドメイン間の異種特徴のアライメントを行うために、可視性に配慮した特徴投影(VAFP)をさらに調査する。
– マルチビューのビジュアルおよび幾何特徴をペアワイズにアライメントすることによって、より強力な深いポイントエンコーダを獲得できる。3D形状分類、パーツセグメンテーション、非教師あり学習の実験により、本手法の有効性が強く検証された。コードとデータはhttps://github.com/keeganhk/PointMCDで公開される予定。
要約(オリジナル)
As two fundamental representation modalities of 3D objects, 3D point clouds and multi-view 2D images record shape information from different domains of geometric structures and visual appearances. In the current deep learning era, remarkable progress in processing such two data modalities has been achieved through respectively customizing compatible 3D and 2D network architectures. However, unlike multi-view image-based 2D visual modeling paradigms, which have shown leading performance in several common 3D shape recognition benchmarks, point cloud-based 3D geometric modeling paradigms are still highly limited by insufficient learning capacity, due to the difficulty of extracting discriminative features from irregular geometric signals. In this paper, we explore the possibility of boosting deep 3D point cloud encoders by transferring visual knowledge extracted from deep 2D image encoders under a standard teacher-student distillation workflow. Generally, we propose PointMCD, a unified multi-view cross-modal distillation architecture, including a pretrained deep image encoder as the teacher and a deep point encoder as the student. To perform heterogeneous feature alignment between 2D visual and 3D geometric domains, we further investigate visibility-aware feature projection (VAFP), by which point-wise embeddings are reasonably aggregated into view-specific geometric descriptors. By pair-wisely aligning multi-view visual and geometric descriptors, we can obtain more powerful deep point encoders without exhausting and complicated network modification. Experiments on 3D shape classification, part segmentation, and unsupervised learning strongly validate the effectiveness of our method. The code and data will be publicly available at https://github.com/keeganhk/PointMCD.
arxiv情報
著者 | Qijian Zhang,Junhui Hou,Yue Qian |
発行日 | 2023-04-13 09:44:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI