Scaling Sparse Fine-Tuning to Large Language Models

要約

大規模言語モデル(LLM)は、その膨大なパラメータ数のため、(例えば命令や人間によるフィードバックを用いて)完全に微調整することが困難である。パラメータ効率の良いスパース微調整手法のファミリーは、性能の点で有望であることが証明されているが、必要なメモリはLLMのサイズに比例して増加する。本研究では、スパース微調整をLLaMA 2 7Bや13Bのような最先端のLLMに拡張する。SpIELは、所望の密度レベルに対して、パラメータインデックスの配列と、これらのパラメータの事前学習値に対するデルタを保持する、新しいスパース微調整手法である。(a)アクティブなデルタの更新、(b)(デルタの大きさの変化に基づく)インデックスの刈り込み、(c)インデックスの再成長を繰り返す。再成長については、いくつかの候補パラメータの累積勾配か、効率的なSM3オプティマイザを用いて推定した近似モーメントのどちらかに基づく2つの基準を検討した。標準的なデータセット混合に対するLLMのインストラクションチューニングを実験した結果、SpIELはLoRA(低ランクアダプテーション)のような一般的なパラメータ効率の良いファインチューニング手法よりも性能面で優れていることが多く、実行時間では同等であることがわかった。さらに、SpIELは量子化と効率的なオプティマイザの両方に対応しており、より大きなモデルサイズへの拡張が容易であることを示す。SpIELのコードはhttps://github.com/AlanAnsell/peft、命令チューニング実験のコードはhttps://github.com/ducdauge/sft-llm。

要約(オリジナル)

Large Language Models (LLMs) are difficult to fully fine-tune (e.g., with instructions or human feedback) due to their sheer number of parameters. A family of parameter-efficient sparse fine-tuning methods have proven promising in terms of performance but their memory requirements increase proportionally to the size of the LLMs. In this work, we scale sparse fine-tuning to state-of-the-art LLMs like LLaMA 2 7B and 13B. We propose SpIEL, a novel sparse fine-tuning method which, for a desired density level, maintains an array of parameter indices and the deltas of these parameters relative to their pretrained values. It iterates over: (a) updating the active deltas, (b) pruning indices (based on the change of magnitude of their deltas) and (c) regrowth of indices. For regrowth, we explore two criteria based on either the accumulated gradients of a few candidate parameters or their approximate momenta estimated using the efficient SM3 optimizer. We experiment with instruction-tuning of LLMs on standard dataset mixtures, finding that SpIEL is often superior to popular parameter-efficient fine-tuning methods like LoRA (low-rank adaptation) in terms of performance and comparable in terms of run time. We additionally show that SpIEL is compatible with both quantization and efficient optimizers, to facilitate scaling to ever-larger model sizes. We release the code for SpIEL at https://github.com/AlanAnsell/peft and for the instruction-tuning experiments at https://github.com/ducdauge/sft-llm.

arxiv情報

著者 Alan Ansell,Ivan Vulić,Hannah Sterz,Anna Korhonen,Edoardo M. Ponti
発行日 2024-02-02 14:53:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク