Convolutional Bypasses Are Better Vision Transformer Adapters

要約

コンピュータビジョンの分野では、プレトレーニング・ファインチューンのパラダイムが広く採用されている。しかし、Vision Transformer (ViT) のサイズが指数関数的に増大するにつれ、ストレージのオーバーヘッドが重くなるため、完全な微調整は不可能になる。言語変換器におけるパラメータ効率的な伝達学習(PETL)に動機付けられ、最近の研究では、事前に学習したViTに軽量な適応モジュール(例えば、アダプタ層やプロンプトトークン)を挿入し、事前に学習した重みが凍結されている間にこれらのモジュールのみを細かく調整することが試みられている。しかし、これらのモジュールはもともと言語モデルの微調整のために提案されたものであり、視覚タスクに特化した事前知識を考慮したものではない。本論文では、ViTにおけるConvolutional Bypasses (Convpass) を適応モジュールとして構築し、大規模なViTに適応するために、学習可能なパラメータを少量(モデルパラメータの0.5%以下)しか導入しないことを提案する。他のPETL手法と異なり、Convpassは畳み込み層のハードコードされた誘導バイアスの恩恵を受けるため、特に低データ領域での視覚タスクに適している。VTAB-1Kベンチマークと少数ショット学習データセットでの実験結果は、Convpassが現在の言語指向の適応モジュールを上回ることを示しており、ビジョンモデルを適応させるためにビジョン指向の適応モジュールを調整する必要性を示している。

要約(オリジナル)

The pretrain-then-finetune paradigm has been widely adopted in computer vision. But as the size of Vision Transformer (ViT) grows exponentially, the full finetuning becomes prohibitive in view of the heavier storage overhead. Motivated by parameter-efficient transfer learning (PETL) on language transformers, recent studies attempt to insert lightweight adaptation modules (e.g., adapter layers or prompt tokens) to pretrained ViT and only finetune these modules while the pretrained weights are frozen. However, these modules were originally proposed to finetune language models and did not take into account the prior knowledge specifically for visual tasks. In this paper, we propose to construct Convolutional Bypasses (Convpass) in ViT as adaptation modules, introducing only a small amount (less than 0.5% of model parameters) of trainable parameters to adapt the large ViT. Different from other PETL methods, Convpass benefits from the hard-coded inductive bias of convolutional layers and thus is more suitable for visual tasks, especially in the low-data regime. Experimental results on VTAB-1K benchmark and few-shot learning datasets show that Convpass outperforms current language-oriented adaptation modules, demonstrating the necessity to tailor vision-oriented adaptation modules for adapting vision models.

arxiv情報

著者 Shibo Jie,Zhi-Hong Deng
発行日 2022-08-09 10:40:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク