Step-by-Step Unmasking for Parameter-Efficient Fine-tuning of Large Language Models

要約

下流タスクで大規模言語モデル (LLM) を微調整するには、大量の計算リソースが必要です。
パラメーター効率の良い微調整 (PEFT) のクラスは、モデル パラメーターのごく一部のみを選択的に微調整することで、これらの計算上の課題を軽減することを目的としています。
これらの手法は計算効率が高いものの、主にパラメーター選択中に導入される固有のバイアスが原因で、完全に微調整されたモデルのパフォーマンスに匹敵しないことがよくあります。
従来の選択的 PEFT 手法では、事前定義されたバジェット (マスク解除とも呼ばれるプロセス) に基づいてパラメーターの固定セットを使用するため、パラメーターの重要性を動的に捉えることができず、最終的にバジェットを超えることがよくあります。
$\text{ID}^3$ を導入します。これは、パラメーターの重要性を継続的に計算し、パラメーター選択における探索と利用のバランスをとることでパラメーターを動的にマスク解除する、新しい選択的 PEFT メソッドです。
自然言語理解と生成タスクにわたる 15 のタスクに関する私たちの実証研究は、固定マスキングベースの PEFT 技術と比較して、私たちの方法の有効性を実証しています。
$\text{ID}^3$ によって勾配更新の数が 2 分の 1 に減少し、計算効率が向上することが分析的に示されています。
$\text{ID}^3$ はニューロンのランダム初期化に対して堅牢であるため、動的スパース化のためのアダプタや LoRA などの既存の加算および再パラメータ化ベースの PEFT モジュールにシームレスに統合できます。

要約(オリジナル)

Fine-tuning large language models (LLMs) on downstream tasks requires substantial computational resources. A class of parameter-efficient fine-tuning (PEFT) aims to mitigate these computational challenges by selectively fine-tuning only a small fraction of the model parameters. Although computationally efficient, these techniques often fail to match the performance of fully fine-tuned models, primarily due to inherent biases introduced during parameter selection. Traditional selective PEFT techniques use a fixed set of parameters based on a predefined budget (a process also known as unmasking), failing to capture parameter importance dynamically and often ending up exceeding the budget. We introduce $\text{ID}^3$, a novel selective PEFT method that calculates parameter importance continually and dynamically unmasks parameters by balancing exploration and exploitation in parameter selection. Our empirical study on 15 tasks spanning natural language understanding and generative tasks demonstrates the effectiveness of our method compared to fixed-masking-based PEFT techniques. We analytically show that $\text{ID}^3$ reduces the number of gradient updates by a factor of two, enhancing computational efficiency. $\text{ID}^3$ is robust to random initialization of neurons and, therefore, can be seamlessly integrated into existing additive and reparametrization-based PEFT modules such as adapters and LoRA for dynamic sparsification.

arxiv情報

著者 Aradhye Agarwal,Suhas K Ramesh,Ayan Sengupta,Tanmoy Chakraborty
発行日 2024-08-26 17:58:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク