要約
事前トレーニングされたビジョン トランスフォーマーは、さまざまな下流タスクに対して表現上の強力な利点をもたらします。
最近、多くのパラメーター効率の良い微調整 (PEFT) 手法が提案されており、その実験では、わずか 1\% の追加パラメーターを調整するだけで、低データ リソースのシナリオでは完全な微調整を超えることができることが実証されています。
ただし、これらの方法では、さまざまな下流タスクを微調整するときに、タスク固有の情報が見落とされます。
この論文では、「Salient Channel Tuning」(SCT) と呼ばれるシンプルかつ効果的な方法を提案します。これは、タスク画像を含むモデルを転送して、1 つのみを調整できる特徴マップ内の部分チャネルを選択することで、タスク固有の情報を活用します。
/8 チャネルによりパラメータ コストが大幅に削減されます。
19 個の視覚伝達学習の下流タスクに関する実験では、ViT-B の 0.11M パラメーターのみを追加するだけで、当社の SCT が 19 タスク中 18 個のタスクで完全な微調整よりも優れたパフォーマンスを発揮することが実証されました。これは、完全な微調整対応のものよりも 780 倍少ないです。
。
さらに、ドメイン一般化と少数ショット分類に関する実験は、私たちのアプローチの有効性と一般性をさらに実証しています。
コードは https://github.com/showlab/SCT で入手できます。
要約(オリジナル)
Pre-trained vision transformers have strong representation benefits to various downstream tasks. Recently, many parameter-efficient fine-tuning (PEFT) methods have been proposed, and their experiments demonstrate that tuning only 1\% extra parameters could surpass full fine-tuning in low-data resource scenarios. However, these methods overlook the task-specific information when fine-tuning diverse downstream tasks. In this paper, we propose a simple yet effective method called ‘Salient Channel Tuning’ (SCT) to leverage the task-specific information by forwarding the model with the task images to select partial channels in a feature map that enables us to tune only 1/8 channels leading to significantly lower parameter costs. Experiments on 19 visual transfer learning downstream tasks demonstrate that our SCT outperforms full fine-tuning on 18 out of 19 tasks by adding only 0.11M parameters of the ViT-B, which is 780$\times$ fewer than its full fine-tuning counterpart. Furthermore, experiments on domain generalization and few-shot classification further demonstrate the effectiveness and generic of our approach. The code is available at https://github.com/showlab/SCT.
arxiv情報
著者 | Henry Hengyuan Zhao,Pichao Wang,Yuyang Zhao,Hao Luo,Fan Wang,Mike Zheng Shou |
発行日 | 2024-04-29 16:20:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google