要約
事前トレーニングされた Transformer バックボーンをダウンストリーム タスクに適応させるための Generative Parameter-Efficient Fine-Tuning (GIFT) を紹介します。
GIFT は、レイヤーの微調整された重みを事前トレーニングされた重みから直接生成することを学習します。
GIFT ネットワークは、2 つの線形層 (バイアス項なし) によって最小限の単純な方法でパラメータ化され、微調整のために選択されたさまざまな事前トレーニング済み層 (クエリ層など) によって共有されるため、GIFT ネットワークと比較してトレーニング可能なパラメータが大幅に少なくなります。
低ランク アダプター (LoRA) などのレイヤー固有のメソッド。
また、この定式化がパラメーター効率の高い微調整と表現の微調整を橋渡しすることも示します。
私たちは、自然言語タスク (常識と算術推論、命令チューニング、シーケンス分類) とコンピューター ビジョン タスク (詳細な分類) に関する包括的な実験を実行します。
常識的および算術推論のベースラインと、Llama ファミリのモデルを使用した指示に従って、および Vision Transformers を使用した視覚認識ベンチマークの中で、最高のパフォーマンスとパラメーター効率が得られました。
特に、LoRA と比較して、Llama-3 (8B) を使用した Commonsense170k のパラメータの 14 倍の削減により平均精度が 5.7% 絶対的に増加し、Llama-2 を使用してパラメータを 4 倍削減して勝率が 5.4% 絶対的に増加しました。
(7B) 命令チューニング中。
また、GIFT は、命令チューニングにおいて GPT 3.5 (Turbo 1106) よりもわずかに高い勝率を獲得しています。
要約(オリジナル)
We present Generative Parameter-Efficient Fine-Tuning (GIFT) for adapting pretrained Transformer backbones on downstream tasks. GIFT learns to generate the fine-tuned weights for a layer directly from its pretrained weights. The GIFT network is parameterized in a minimally-simple way by two linear layers (without bias terms), and is shared by different pretrained layers selected for fine-tuning (e.g., the Query layers), which result in significantly fewer trainable parameters compared to the layer-specific methods like Low-Rank Adapter (LoRA). We also show this formulation bridges parameter-efficient fine-tuning and representation fine-tuning. We perform comprehensive experiments on natural language tasks (commonsense and arithmetic reasoning, instruction tuning, and sequence classification) and computer vision tasks (fine-grained classification). We obtain the best performance and parameter efficiency among baselines on commonsense and arithmetic reasoning, and instruction following using the Llama family of models and on visual recognition benchmarks using Vision Transformers. Notably, compared to LoRA, we obtain 5.7% absolute increase in average accuracy with 14 times reduction of parameters on Commonsense170k using Llama-3 (8B), and 5.4% absolute increase in the win rate with 4 times reduction of parameters using Llama-2 (7B) during instruction tuning. Our GIFT also obtains a slightly higher win rate on instruction tuning than GPT 3.5 (Turbo 1106).
arxiv情報
著者 | Chinmay Savadikar,Xi Song,Tianfu Wu |
発行日 | 2024-10-07 17:40:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google