SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models

要約

大規模言語モデル (LLM) の急速な進歩には、そのパラメーター サイズの大幅な増加が伴い、適応と微調整に課題が生じています。
パラメータ効率の良い微調整 (PEFT) 手法は、LLM をダウンストリーム タスクに効率的に適合させるために広く使用されています。
この論文では、新しい PEFT 手法である特異値と正規直交正則特異ベクトル適応 (SORSA) を提案します。
特異値分解(SVD)を行うことでパラメータの変動を解析する手法を紹介し、SVDの面での変動を最小限に抑えるというSORSAの優位性について議論・分析する。
各 SORSA アダプターは、トレーニング可能な主特異重み $W_p = U_p \Sigma_p V^\top_p$ と凍結残差重み $W_r = U_r \Sigma_r V^\top_r$ の 2 つの主要な部分で構成されます。
これらの部分は、事前にトレーニングされた重みに対して SVD を実行することによって初期化されます。
さらに、正規直交正則化機能を実装して分析します。これにより、スケーリング情報を $\Sigma_p$ に効果的に転送でき、最終的にトレーニング プロセスをより効率的に行うことができます。
SORSA アダプターは推論中にマージできるため、推論の遅延が排除されます。
結局のところ、私たちの実験では、SORSA は PiSSA や LoRA よりも速い収束を示しました。
MATH ベンチマークでは、SORSA を使用して適応させた Llama 2 7B は 10.36% の精度を達成し、LoRA (5.50%)、Full FT (7.22%)、PiSSA (7.44%) を上回りました。
GSM-8K ベンチマークでは、SORSA は 56.03% の精度を達成し、LoRA (42.30%)、Full FT (49.05%)、PiSSA (53.07%) を上回りました。
SORSA はパラメータ効率の高い微調整に関する新しい視点を提供し、顕著なパフォーマンスを実証していると結論付けています。
コードは https://github.com/Gunale0926/SORSA で入手できます。

要約(オリジナル)

The rapid advancement in large language models (LLMs) comes with a significant increase in their parameter size, presenting challenges for adaptation and fine-tuning. Parameter-efficient fine-tuning (PEFT) methods are widely used to adapt LLMs for downstream tasks efficiently. In this paper, we propose Singular Values and Orthonormal Regularized Singular Vectors Adaptation, or SORSA, a novel PEFT method. We introduce a method to analyze the variation of the parameters by performing singular value decomposition (SVD) and discuss and analyze SORSA’s superiority in minimizing the alteration in the SVD aspect. Each SORSA adapter consists of two main parts: trainable principal singular weights $W_p = U_p \Sigma_p V^\top_p$, and frozen residual weights $W_r = U_r \Sigma_r V^\top_r$. These parts are initialized by performing SVD on pre-trained weights. Moreover, we implement and analyze an orthonormal regularizer, which could effectively transfer the scaling information into $\Sigma_p$ and ultimately allows the training process to be more efficient. SORSA adapters could be merged during inference, thus eliminating any inference latency. After all, SORSA shows a faster convergence than PiSSA and LoRA in our experiments. On the MATH benchmark, Llama 2 7B adapted using SORSA achieved 10.36% accuracy, outperforming LoRA (5.50%), Full FT (7.22%), and PiSSA (7.44%). On the GSM-8K benchmark, SORSA achieved 56.03% accuracy, surpassing LoRA (42.30%), Full FT (49.05%), and PiSSA (53.07%). We conclude that SORSA offers a new perspective on parameter-efficient fine-tuning, demonstrating remarkable performance. The code is available at https://github.com/Gunale0926/SORSA.

arxiv情報

著者 Yang Cao
発行日 2024-09-10 17:26:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク