要約
大規模な言語モデル(LLM)は、多くの研究分野に革命をもたらしました。
LLMSの機能を強化するために微調整が不可欠であることはよく知られていますが、既存の研究は、微調整プロセスに潜在的な冗長性があることを示唆しているため、パラメーターのサブセットのみを更新することを提案しています。
ただし、これらの方法は、タスク固有の情報を活用して、トレーニング中に重要なパラメーターを特定することはできません。
グラデーションが本質的にタスク固有のデータに関する情報が含まれているという洞察に基づいて、勾配情報に基づいてトレーニング中にパラメーターを選択的に更新する方法である勾配マスクチューニング(GMT)を提案します。
具体的には、勾配の絶対値を計算し、比較的小さいマグニチュードのあるものにマスキングを適用します。
さまざまなタスクにわたる経験的な結果は、GMTが従来の微調整方法よりも優れているだけでなく、LLMパフォーマンスの上限を高めることを示しています。
さらなる分析は、GMTがマスク比に対する無感覚性を示し、バニラSFTに匹敵する計算効率を持っていることを示しています。
要約(オリジナル)
Large language models (LLMs) have revolutionized lots of fields of research. Although it is well-known that fine-tuning is essential for enhancing the capabilities of LLMs, existing research suggests that there is potential redundancy in the fine-tuning process and therefore proposes to update only a subset of parameters. However, these methods fail to leverage the task-specific information to identify important parameters during training. Based on the insight that gradients inherently contain information on task-specific data, we propose Gradient-Mask Tuning (GMT), a method that selectively updates parameters during training based on their gradient information. Specifically, we compute the absolute values of the gradients and apply masking to those with relatively smaller magnitudes. Our empirical results across various tasks demonstrate that GMT not only outperforms traditional fine-tuning methods but also elevates the upper limits of LLM performance. Further analysis indicates that GMT exhibits insensitivity to mask ratio and possesses computational efficiency comparable to vanilla SFT.
arxiv情報
著者 | Haoling Li,Xin Zhang,Xiao Liu,Yeyun Gong,Yifan Wang,Qi Chen,Peng Cheng |
発行日 | 2025-02-13 13:06:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google