Convolutional Bypasses Are Better Vision Transformer Adapters

要約

pretrain-then-finetuneパラダイムは、コンピュータビジョンで広く採用されています。
ただし、Vision Transformer(ViT)のサイズが指数関数的に大きくなると、ストレージのオーバーヘッドが大きくなるため、完全な微調整は非常に困難になります。
言語トランスフォーマーでのパラメーター効率の高い転移学習(PETL)に動機付けられた最近の研究では、軽量の適応モジュール(アダプターレイヤーやプロンプトトークンなど)を事前トレーニング済みのViTに挿入し、事前トレーニング済みの重みが凍結されている間のみこれらのモジュールを微調整しようとしています。
ただし、これらのモジュールは元々、言語モデルを微調整するために提案されました。
ViTにうまく移植されていますが、それらのデザインには視覚的なタスクに関する予備知識がありません。
この論文では、適応モジュールとしてViTに畳み込みバイパス(Convpass)を構築し、大きなViTを適応させるためにトレーニング可能なパラメーターを少量(モデルパラメーターの0.5%未満)だけ導入することを提案します。
他のPETL手法とは異なり、Convpassは、畳み込み層のハードコードされた誘導バイアスの恩恵を受けるため、特に低データ領域での視覚的なタスクに適しています。
VTAB-1kベンチマークと数ショットの学習データセットに関する実験結果は、Convpassが現在の言語指向の適応モジュールよりも優れていることを示しており、視覚モデル用に視覚指向の適応モジュールを調整する必要があることを示しています。

要約(オリジナル)

The pretrain-then-finetune paradigm has been widely adopted in computer vision. But as the size of Vision Transformer (ViT) grows exponentially, the full finetuning becomes prohibitive in view of the heavier storage overhead. Motivated by parameter-efficient transfer learning (PETL) on language transformers, recent studies attempt to insert lightweight adaptation modules (e.g., adapter layers or prompt tokens) to pretrained ViT and only finetune these modules while the pretrained weights are frozen. However, these modules were originally proposed to finetune language models. Although ported well to ViT, their design lacks prior knowledge for visual tasks. In this paper, we propose to construct Convolutional Bypasses (Convpass) in ViT as adaptation modules, introducing only a small amount (less than 0.5% of model parameters) of trainable parameters to adapt the large ViT. Different from other PETL methods, Convpass benefits from the hard-coded inductive bias of convolutional layers and thus is more suitable for visual tasks, especially in the low-data regime. Experimental results on VTAB-1k benchmark and few-shot learning datasets demonstrate that Convpass outperforms current language-oriented adaptation modules, demonstrating the necessity to tailor vision-oriented adaptation modules for vision models.

arxiv情報

著者 Shibo Jie,Zhi-Hong Deng
発行日 2022-07-14 16:32:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク