Sparse is Enough in Fine-tuning Pre-trained Large Language Models

要約

事前トレーニングと微調整のパラダイムが普及するにつれ、事前トレーニングされたモデルを下流のタスクにどのように効率的に適応させるかが興味深い問題となっています。
パラメータ効率の良い微調整 (PEFT) 方法は、低コストの適応のために提案されています。
PEFT は有効性が実証され、広く適用されていますが、基礎となる原理はまだ不明です。
この論文では、PAC ベイジアン汎化誤差限界を採用し、事前トレーニングを汎化誤差のより厳しい限界につながる事前分布のシフトと見なします。
我々は、損失状況の振動と勾配分布の準スパース性の観点からこの変化を検証します。
これに基づいて、Sparse Increment Fine-Tuning (SIFT) と呼ばれる勾配ベースのスパース微調整アルゴリズムを提案し、GLUE ベンチマークや命令チューニングを含むさまざまなタスクでその有効性を検証します。
コードは https://github.com/song-wx/SIFT/ からアクセスできます。

要約(オリジナル)

With the prevalence of pre-training-fine-tuning paradigm, how to efficiently adapt the pre-trained model to the downstream tasks has been an intriguing issue. Parameter-Efficient Fine-Tuning (PEFT) methods have been proposed for low-cost adaptation. Although PEFT has demonstrated effectiveness and been widely applied, the underlying principles are still unclear. In this paper, we adopt the PAC-Bayesian generalization error bound, viewing pre-training as a shift of prior distribution which leads to a tighter bound for generalization error. We validate this shift from the perspectives of oscillations in the loss landscape and the quasi-sparsity in gradient distribution. Based on this, we propose a gradient-based sparse fine-tuning algorithm, named Sparse Increment Fine-Tuning (SIFT), and validate its effectiveness on a range of tasks including the GLUE Benchmark and Instruction-tuning. The code is accessible at https://github.com/song-wx/SIFT/.

arxiv情報

著者 Weixi Song,Zuchao Li,Lefei Zhang,Hai Zhao,Bo Du
発行日 2024-05-02 16:25:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク