Scaling Sparse Fine-Tuning to Large Language Models

要約

大規模言語モデル (LLM) は、パラメーターの数が膨大であるため、完全に微調整することは困難です (たとえば、指示や人間のフィードバックによる)。
パラメーター効率の高いスパース微調整 (SFT) メソッドのファミリーは、パフォーマンスの点で有望であることが証明されていますが、メモリ要件は LLM のサイズに比例して増加します。
この作業では、スパース微調整を LLaMA 2 7B や 13B などの最先端の LLM に拡張します。
いつでも、望ましい密度レベルに対して、パラメータ インデックスの配列と、事前トレーニングされた値に対するこれらのパラメータのデルタを維持します。
(a) アクティブなデルタの更新、(b) インデックスの枝刈り (デルタの大きさの変化に基づく)、(c) インデックスの再成長を繰り返します。
再成長については、いくつかの候補パラメーターの累積勾配、または効率的な SM3 オプティマイザーを使用して推定されたそれらのおおよその運動量のいずれかに基づいて 2 つの基準を検討します。
私たちは、標準的なデータセット混合物で LLM の命令チューニングを実験しました。その結果、パフォーマンスの点では SFT が LoRA (低ランク適応) などの一般的なパラメータ効率の高い微調整手法よりも優れていることが多く、実行時間の点では同等であることがわかりました。
さらに、SFT が量子化と効率的なオプティマイザーの両方と互換性があり、ますます大きなモデル サイズへのスケーリングを容易にすることも示します。
SFT のコードは https://github.com/AlanAnsell/peft で、命令チューニング実験のコードは https://github.com/ducdauge/sft-llm でリリースされます。

要約(オリジナル)

Large Language Models (LLMs) are difficult to fully fine-tune (e.g., with instructions or human feedback) due to their sheer number of parameters. A family of parameter-efficient sparse fine-tuning (SFT) methods have proven promising in terms of performance but their memory requirements increase proportionally to the size of the LLMs. In this work, we scale sparse fine-tuning to state-of-the-art LLMs like LLaMA 2 7B and 13B. At any given time, for a desired density level, we maintain an array of parameter indices and the deltas of these parameters relative to their pretrained values. We iterate among: (a) updating the active deltas, (b) pruning indices (based on the change of magnitude of their deltas) and (c) regrowth of indices. For regrowth, we explore two criteria based on either the accumulated gradients of a few candidate parameters or their approximate momenta estimated using the efficient SM3 optimizer. We experiment with instruction-tuning of LLMs on standard dataset mixtures, finding that SFT is often superior to popular parameter-efficient fine-tuning methods like LoRA (low-rank adaptation) in terms of performance and comparable in terms of run time. We additionally show that SFT is compatible with both quantization and efficient optimizers, to facilitate scaling to ever-larger model sizes. We release the code for SFT at https://github.com/AlanAnsell/peft and for the instruction-tuning experiments at https://github.com/ducdauge/sft-llm.

arxiv情報

著者 Alan Ansell,Ivan Vulić,Hannah Sterz,Anna Korhonen,Edoardo M. Ponti
発行日 2024-01-29 18:43:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク