Lessons Learned from a Unifying Empirical Study of Parameter-Efficient Transfer Learning (PETL) in Visual Recognition

要約

パラメータ効率的伝達学習(PETL)は、事前学習されたモデルのサイズが大きくなり、下流で優れた性能を発揮するために微調整(FT)する必要があるため、最近大きな注目を集めている。このようなコミュニティ全体の熱意により、数多くのアプローチが生み出されている。にもかかわらず、それらの性能や適切な適用シナリオを理解するための体系的な研究は不足しており、PETLをいつ適用するのか、どのアプローチを使用するのかといった疑問はほとんど解決されていない。本論文では、Vision Transformersの文脈における代表的なPETL手法の統一的な実証研究を行う。下流タスクにおける精度を公平に比較するために、ハイパーパラメータを系統的に調整する。我々の研究は、貴重なユーザーガイドを提供するだけでなく、いくつかの新しい洞察を明らかにする。第一に、注意深くチューニングすれば、異なるPETL手法はローショットベンチマークVTAB-1Kにおいて同様の精度を得ることができる。これには、劣ると報告されたバイアス項をFTするような単純な方法も含まれる。第二に、同じような精度であるにもかかわらず、PETL手法は異なるミスや高確率予測を行うことがわかった。このような矛盾(あるいは相補性)は、アンサンブル手法の可能性を開くものであり、我々はこれを予備的に試みている。第三に、よく使われる低ショットタスクにとどまらず、PETLは多ショット領域でも有用であることを発見した。PETLは、より少ない学習可能なパラメータで、完全なFTと同等、時にはそれ以上の精度を達成する。最後に、PETLが事前学習されたモデル(例えばCLIPバックボーン)の分布シフトに対するロバスト性を維持する能力を調査する。驚くことではないが、PETL法は完全なFT法よりも優れている。しかし、重み空間アンサンブルを用いると、完全に微調整されたモデルは、ターゲット(すなわち下流)の分布と分布シフトの性能のバランスをより良くすることができ、PETLの今後の研究の方向性を示唆している。

要約(オリジナル)

Parameter-efficient transfer learning (PETL) has attracted significant attention lately, due to the increasing size of pre-trained models and the need to fine-tune (FT) them for superior downstream performance. This community-wide enthusiasm has sparked a plethora of approaches. Nevertheless, a systematic study to understand their performance and suitable application scenarios is lacking, leaving questions like when to apply PETL and which approach to use largely unanswered. In this paper, we conduct a unifying empirical study of representative PETL methods in the context of Vision Transformers. We systematically tune their hyper-parameters to fairly compare their accuracy on downstream tasks. Our study not only offers a valuable user guide but also unveils several new insights. First, if tuned carefully, different PETL methods can obtain similar accuracy in the low-shot benchmark VTAB-1K. This includes simple methods like FT the bias terms that were reported inferior. Second, though with similar accuracy, we find that PETL methods make different mistakes and high-confidence predictions, likely due to their different inductive biases. Such an inconsistency (or complementariness) opens up the opportunity for ensemble methods, and we make preliminary attempts at this. Third, going beyond the commonly used low-shot tasks, we find that PETL is also useful in many-shot regimes — it achieves comparable and sometimes better accuracy than full FT, using much fewer learnable parameters. Last but not least, we investigate PETL’s ability to preserve a pre-trained model’s robustness to distribution shifts (e.g., a CLIP backbone). Perhaps not surprisingly, PETL methods outperform full FT alone. However, with weight-space ensembles, the fully fine-tuned model can better balance target (i.e., downstream) distribution and distribution shift performance, suggesting a future research direction for PETL.

arxiv情報

著者 Zheda Mai,Ping Zhang,Cheng-Hao Tu,Hong-You Chen,Li Zhang,Wei-Lun Chao
発行日 2024-10-04 16:35:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク