要約
事前トレーニングされた大規模モデルの人気は、言語、視覚、マルチモダリティなどのさまざまな分野にわたる下流タスクに革命をもたらしました。
下流タスクの適応コストを最小限に抑えるために、言語および 2D 画像の事前トレーニング済みモデルに対して多くのパラメーター効率の良い微調整 (PEFT) 手法が提案されています。
ただし、3D 事前トレーニング モデルに特化した PEFT 手法はまだ研究が進んでいません。
この目的を達成するために、最小限の学習可能なパラメーターで点群の事前トレーニング済みモデルを適応させるための新しいフレームワークである Point-PEFT を紹介します。
具体的には、事前トレーニングされた 3D モデルの場合、そのパラメーターの大部分をフリーズし、ポイント優先プロンプトとジオメトリ対応アダプターで構成される下流タスクで新しく追加された PEFT モジュールのみを調整します。
Point-prior プロンプトは、学習可能なプロンプト トークンのセットを採用しています。これに対して、ドメイン固有の知識を使用してメモリ バンクを構築し、パラメーターのないアテンションを利用してプロンプト トークンを強化することを提案します。
ジオメトリ対応アダプターは、空間近傍内の点群フィーチャを集約して、ローカル インタラクションを通じて詳細な幾何学的情報を取得することを目的としています。
広範な実験により、当社の Point-PEFT は、トレーニング可能なパラメーターの 5% のみを使用しながら、さまざまな下流タスクで完全な微調整よりも優れたパフォーマンスを達成できることが示されており、当社のアプローチの効率と有効性が実証されています。
コードは https://github.com/Even-JK/PEFT-3D で公開されます。
要約(オリジナル)
The popularity of pre-trained large models has revolutionized downstream tasks across diverse fields, such as language, vision, and multi-modality. To minimize the adaption cost for downstream tasks, many Parameter-Efficient Fine-Tuning (PEFT) techniques are proposed for language and 2D image pre-trained models. However, the specialized PEFT method for 3D pre-trained models is still under-explored. To this end, we introduce Point-PEFT, a novel framework for adapting point cloud pre-trained models with minimal learnable parameters. Specifically, for a pre-trained 3D model, we freeze most of its parameters, and only tune the newly added PEFT modules on downstream tasks, which consist of a Point-prior Prompt and a Geometry-aware Adapter. The Point-prior Prompt adopts a set of learnable prompt tokens, for which we propose to construct a memory bank with domain-specific knowledge, and utilize a parameter-free attention to enhance the prompt tokens. The Geometry-aware Adapter aims to aggregate point cloud features within spatial neighborhoods to capture fine-grained geometric information through local interactions. Extensive experiments indicate that our Point-PEFT can achieve better performance than the full fine-tuning on various downstream tasks, while using only 5% of the trainable parameters, demonstrating the efficiency and effectiveness of our approach. Code will be released at https://github.com/Even-JK/PEFT-3D.
arxiv情報
著者 | Ivan Tang,Ray Zhang,Zoey Guo,Dong Wang,Zhigang Wang,Bin Zhao,Xuelong Li |
発行日 | 2023-11-28 16:31:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google