Scaling & Shifting Your Features: A New Baseline for Efficient Model Tuning

要約

既存の微調整手法は、事前学習済みモデルの全パラメータを調整する方法(フルファインチューニング)と、最後の線形層のみを調整する方法(リニアプロービング)があるが、フルファインチューニングと比較して精度が大きく低下する。本論文では、SSFと呼ばれるパラメータ効率の良い微調整手法を提案する。このように、SSFは、調整可能なパラメータ数が少ない場合でも、他のパラメータ効率に優れた微調整手法を上回る性能を発揮します。さらに、AdapterやVPTなどの既存のパラメータ効率的な微調整手法では、学習と推論の段階で余分なパラメータと計算コストが発生するが、SSFでは学習段階で学習可能なパラメータを追加するだけで、推論段階でこれらの追加パラメータは再パラメータ化により元の学習済みモデルの重みに統合される。提案するSSFを用いることで、FGVCとVTAB-1kにおいて、完全な微調整を行わず0.3M程度のパラメータを微調整した場合と比較して、Top-1精度で2.46%(90.72%対88.54%)と11.48%(73.10%対65.57%)の性能改善を達成することができる.また、様々なモデルファミリー(CNN、Transformer、MLP)、データセットにおいて、大量の実験を行う。合計26の画像分類データセットと3つのロバストネス&アウトオブディストリビューションデータセットに対する結果から、SSFの有効性が示される。コードは https://github.com/dongzelian/SSF で公開されています。

要約(オリジナル)

Existing fine-tuning methods either tune all parameters of the pre-trained model (full fine-tuning), which is not efficient, or only tune the last linear layer (linear probing), which suffers a significant accuracy drop compared to the full fine-tuning. In this paper, we propose a new parameter-efficient fine-tuning method termed as SSF, representing that researchers only need to Scale and Shift the deep Features extracted by a pre-trained model to catch up with the performance of full fine-tuning. In this way, SSF also surprisingly outperforms other parameter-efficient fine-tuning approaches even with a smaller number of tunable parameters. Furthermore, different from some existing parameter-efficient fine-tuning methods (e.g., Adapter or VPT) that introduce the extra parameters and computational cost in the training and inference stages, SSF only adds learnable parameters during the training stage, and these additional parameters can be merged into the original pre-trained model weights via re-parameterization in the inference phase. With the proposed SSF, our model obtains 2.46% (90.72% vs. 88.54%) and 11.48% (73.10% vs. 65.57%) performance improvement on FGVC and VTAB-1k in terms of Top-1 accuracy compared to the full fine-tuning but only fine-tuning about 0.3M parameters. We also conduct amounts of experiments in various model families (CNNs, Transformers, and MLPs) and datasets. Results on 26 image classification datasets in total and 3 robustness & out-of-distribution datasets show the effectiveness of SSF. Code is available at https://github.com/dongzelian/SSF.

arxiv情報

著者 Dongze Lian,Daquan Zhou,Jiashi Feng,Xinchao Wang
発行日 2022-11-07 17:08:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク