P2P: Tuning Pre-trained Image Models for Point Cloud Analysis with Point-to-Pixel Prompting

要約

現在、大規模データセットに対する大規模モデルの事前学習は、深層学習において重要なトピックとなっている。高い表現能力と移植性を持つ事前学習済みモデルは大きな成功を収め、自然言語処理や2Dビジョンにおける多くの下流タスクを支配しています。しかし、このような事前学習-チューニングパラダイムを3Dビジョンに普及させることは、収集が比較的不便な限られた学習データを考慮すると、自明ではない。本論文では、この問題に取り組むために、事前学習した2次元の知識を3次元領域で活用するという新しい視点を提供する。これは、点群解析のための新しいPoint-to-Pixel promptingを用いて事前学習した画像モデルを、わずかなパラメータコストでチューニングするものである。プロンプトエンジニアリングの原理に従い、点群解析タスクのエンドツーエンド最適化の間、その重みを凍結したまま、事前学習した画像モデルに適応するために、形状保存投影と形状を考慮した色付けを用いて、点群をカラフルな画像に変換する。我々は、提案するPoint-to-Pixel Promptingと連携することで、より良い事前学習済み画像モデルが3Dビジョンにおける一貫した性能向上につながることを実証するため、広範な実験を実施した。本手法は、ScanObjectNNという最も困難な設定において89.3%の精度を達成し、従来の点群モデルよりも学習可能なパラメータが少ないにも関わらず、高い評価を得ています。また、ModelNetの分類やShapeNetのパーツ分割においても、非常に高いパフォーマンスを示しています。コードは https://github.com/wangzy22/P2P で公開されています。

要約(オリジナル)

Nowadays, pre-training big models on large-scale datasets has become a crucial topic in deep learning. The pre-trained models with high representation ability and transferability achieve a great success and dominate many downstream tasks in natural language processing and 2D vision. However, it is non-trivial to promote such a pretraining-tuning paradigm to the 3D vision, given the limited training data that are relatively inconvenient to collect. In this paper, we provide a new perspective of leveraging pre-trained 2D knowledge in 3D domain to tackle this problem, tuning pre-trained image models with the novel Point-to-Pixel prompting for point cloud analysis at a minor parameter cost. Following the principle of prompting engineering, we transform point clouds into colorful images with geometry-preserved projection and geometry-aware coloring to adapt to pre-trained image models, whose weights are kept frozen during the end-to-end optimization of point cloud analysis tasks. We conduct extensive experiments to demonstrate that cooperating with our proposed Point-to-Pixel Prompting, better pre-trained image model will lead to consistently better performance in 3D vision. Enjoying prosperous development from image pre-training field, our method attains 89.3% accuracy on the hardest setting of ScanObjectNN, surpassing conventional point cloud models with much fewer trainable parameters. Our framework also exhibits very competitive performance on ModelNet classification and ShapeNet Part Segmentation. Code is available at https://github.com/wangzy22/P2P

arxiv情報

著者 Ziyi Wang,Xumin Yu,Yongming Rao,Jie Zhou,Jiwen Lu
発行日 2022-08-04 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク