要約
下流のタスクで事前トレーニングされたモデルを校正するために、トレーニング可能なパラメータを調整または導入するパラメータ効率的微調整 (PEFT) 手法が、最近の研究の関心となっています。
ただし、従来の微調整フレームワーク内の既存の PEFT 手法には、2 つの主な欠点があります。1) トレーニング可能なパラメータと下流のタスクの知識の間の明示的な関連性を見落としています。
2) 彼らは、事前トレーニングされたモデルの本質的なタスクに依存しない知識と、下流タスクのタスク固有の知識との間の相互作用を無視します。
このギャップに対処するために、プラグアンドプレイ方式で GIST という新しい微調整フレームワークを提案します。
具体的には、私たちのフレームワークは、ダウンストリーム タスクに PEFT メソッドを適用するときに、Gist トークンと呼ばれるトレーニング可能なトークンを最初に導入します。
このトークンは、PEFT メソッドによって学習されたタスク固有の知識の集約として機能し、下流の知識との明示的な関連付けを形成します。
さらに、タスクに依存しない知識とタスク固有の知識の間の明示的な相互作用を促進するために、双方向カルバック・ライブラー発散目標を介した知識相互作用の概念を導入します。
その結果、私たちのフレームワーク内の PEFT メソッドは、知識の相互作用を活用することで、事前トレーニングされたモデルに下流のタスクをより包括的に理解させることができます。
広範な実験により、フレームワークの普遍性と拡張性が実証されています。
特に、VTAB-1K ベンチマークでは、GIST フレームワーク内でアダプター (一般的な PEFT 手法) を採用し、わずか 0.8K パラメーターの増加で 2.25% のパフォーマンス向上を達成しています。
コードが公開されます。
要約(オリジナル)
The Parameter-Efficient Fine-Tuning (PEFT) method, which adjusts or introduces fewer trainable parameters to calibrate pre-trained models on downstream tasks, has become a recent research interest. However, existing PEFT methods within the traditional fine-tiuning framework have two main shortcomings: 1) They overlook the explicit association between trainable parameters and downstream task knowledge. 2) They neglect the interaction between the intrinsic task-agnostic knowledge of pre-trained models and the task-specific knowledge in downstream tasks. To address this gap, we propose a novel fine-tuning framework, named GIST, in a plug-and-play manner. Specifically, our framework first introduces a trainable token, called the Gist token, when applying PEFT methods on downstream tasks. This token serves as an aggregator of the task-specific knowledge learned by the PEFT methods and forms an explicit association with downstream knowledge. Furthermore, to facilitate explicit interaction between task-agnostic and task-specific knowledge, we introduce the concept of Knowledge Interaction via a Bidirectional Kullback-Leibler Divergence objective. As a result, PEFT methods within our framework can make the pre-trained model understand downstream tasks more comprehensively by leveraging the knowledge interaction. Extensive experiments demonstrate the universality and scalability of our framework. Notably, on the VTAB-1K benchmark, we employ the Adapter (a prevalent PEFT method) within our GIST framework and achieve a performance boost of 2.25%, with an increase of only 0.8K parameters. The Code will be released.
arxiv情報
著者 | Jiacheng Ruan,Jingsheng Gao,Mingye Xie,Suncheng Xiang,Zefang Yu,Ting Liu,Yuzhuo Fu |
発行日 | 2023-12-12 13:35:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google