A Semantic-based Layer Freezing Approach to Efficient Fine-Tuning of Language Models

要約

言語モデル (LM) を微調整することは、モデルを下流のデータとタスクに適応させるために重要です。
ただし、完全な微調整には通常、コストがかかります。
パラメータ効率の良い微調整 (PEFT) などの既存の研究では、\textit{微調整する方法} に焦点を当てていることがよくありますが、\textit{どこを微調整するか} の問題は無視されています。
(層レベルで) どこを微調整するかについての先駆的な研究として、私たちは LM 推論プロセスの意味分析を実行します。
まず潜在表現の仮想的な遷移を提案し、次にその事実的な遷移を追跡します。
遷移の偏差に基づいて、各モデル層の微調整によるゲインを推定し、さらに微調整の範囲を絞り込みます。
私たちは、よく知られた LM とデータセットにわたって広範な実験を実行します。
結果は、私たちのアプローチが効果的かつ効率的であり、既存のベースラインを上回るパフォーマンスを示していることを示しています。
私たちのアプローチは、PEFT 手法などの既存の効率的な手法とは直交しており、LM 微調整に関して実用的な価値を提供します。

要約(オリジナル)

Finetuning language models (LMs) is crucial for adapting the models to downstream data and tasks. However, full finetuning is usually costly. Existing work, such as parameter-efficient finetuning (PEFT), often focuses on \textit{how to finetune} but neglects the issue of \textit{where to finetune}. As a pioneering work on answering where to finetune (at the layer level), we conduct a semantic analysis of the LM inference process. We first propose a virtual transition of the latent representation and then trace its factual transition. Based on the deviation in transitions, we estimate the gain of finetuning each model layer, and further, narrow down the scope for finetuning. We perform extensive experiments across well-known LMs and datasets. The results show that our approach is effective and efficient, and outperforms the existing baselines. Our approach is orthogonal to existing efficient techniques, such as PEFT methods, offering practical values on LM finetuning.

arxiv情報

著者 Jian Gu,Aldeida Aleti,Chunyang Chen,Hongyu Zhang
発行日 2024-06-17 17:13:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク