Gradient-Mask Tuning Elevates the Upper Limits of LLM Performance

要約

大規模言語モデル (LLM) は、多くの研究分野に革命をもたらしました。
LLM の機能を強化するには微調整が不可欠であることはよく知られていますが、既存の研究では、微調整プロセスには潜在的な冗長性があることが示唆されており、したがってパラメーターのサブセットのみを更新することが提案されています。
ただし、これらの方法では、タスク固有の情報を活用してトレーニング中に重要なパラメーターを特定できません。
勾配には本質的にタスク固有のデータに関する情報が含まれているという洞察に基づいて、勾配情報に基づいてトレーニング中にパラメーターを選択的に更新する方法である勾配マスク チューニング (GMT) を提案します。
具体的には、勾配の絶対値を計算し、比較的小さい大きさの勾配にマスキングを適用します。
さまざまなタスクにわたる経験的な結果は、GMT が従来の微調整方法よりも優れているだけでなく、LLM パフォーマンスの上限も引き上げていることを示しています。
さらなる分析により、GMT はマスク比の影響を受けず、バニラ SFT に匹敵する計算効率を備えていることが示されています。

要約(オリジナル)

Large language models (LLMs) have revolutionized lots of fields of research. Although it is well-known that fine-tuning is essential for enhancing the capabilities of LLMs, existing research suggests that there is potential redundancy in the fine-tuning process and therefore proposes to update only a subset of parameters. However, these methods fail to leverage the task-specific information to identify important parameters during training. Based on the insight that gradients inherently contain information on task-specific data, we propose Gradient-Mask Tuning (GMT), a method that selectively updates parameters during training based on their gradient information. Specifically, we compute the absolute values of the gradients and apply masking to those with relatively smaller magnitudes. Our empirical results across various tasks demonstrate that GMT not only outperforms traditional fine-tuning methods but also elevates the upper limits of LLM performance. Further analysis indicates that GMT exhibits insensitivity to mask ratio and possesses computational efficiency comparable to vanilla SFT.

arxiv情報

著者 Haoling Li,Xin Zhang,Xiao Liu,Yeyun Gong,Yifan Wang,Yujiu Yang,Qi Chen,Peng Cheng
発行日 2024-06-21 17:42:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク