Point Clouds Are Specialized Images: A Knowledge Transfer Approach for 3D Understanding

要約

自己教師あり表現学習 (SSRL) は、3D データの不足と高いアノテーション コストによってもたらされる課題に対処するため、点群の理解においてますます注目を集めています。
この論文では、点群を「特殊な画像」として再解釈する新しい SSRL アプローチである PCExpert を紹介します。
この概念の転換により、PCExpert は、マルチウェイ Transformer アーキテクチャで事前トレーニングされた画像エンコーダとパラメータを広範囲に共有することにより、大規模な画像モダリティから得られた知識をより直接的かつより深い方法で活用できるようになります。
パラメータ共有戦略と、事前トレーニング用の新しい口実タスク、つまり変換推定を組み合わせることで、PCExpert はトレーニング可能なパラメータの数を大幅に減らしながら、さまざまなタスクで最先端のパフォーマンスを発揮できるようになります。
特に、LINEAR 微調整での PCExpert のパフォーマンス (たとえば、ScanObjectNN で全体の精度 90.02% が得られる) は、完全モデル微調整で得られる結果 (92.66%) にすでに近づいており、その効果的で堅牢な表現能力が実証されています。

要約(オリジナル)

Self-supervised representation learning (SSRL) has gained increasing attention in point cloud understanding, in addressing the challenges posed by 3D data scarcity and high annotation costs. This paper presents PCExpert, a novel SSRL approach that reinterprets point clouds as ‘specialized images’. This conceptual shift allows PCExpert to leverage knowledge derived from large-scale image modality in a more direct and deeper manner, via extensively sharing the parameters with a pre-trained image encoder in a multi-way Transformer architecture. The parameter sharing strategy, combined with a novel pretext task for pre-training, i.e., transformation estimation, empowers PCExpert to outperform the state of the arts in a variety of tasks, with a remarkable reduction in the number of trainable parameters. Notably, PCExpert’s performance under LINEAR fine-tuning (e.g., yielding a 90.02% overall accuracy on ScanObjectNN) has already approached the results obtained with FULL model fine-tuning (92.66%), demonstrating its effective and robust representation capability.

arxiv情報

著者 Jiachen Kang,Wenjing Jia,Xiangjian He,Kin Man Lam
発行日 2023-07-28 14:04:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク