SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models

要約

この論文では、新しい PEFT 手法である特異値と正規直交正則特異ベクトル適応 (SORSA) を提案します。
各 SORSA アダプターは、トレーニング可能な主特異重み $W_p = U_p \text{diag}(S_p) V^\top_p$ と凍結された残差重み $W_r = U_r \text{diag}(S_r) V^\ の 2 つの主要な部分で構成されます。
トップ_r$。
これらの部分は、事前にトレーニングされた重みに対して特異値分解 (SVD) を実行することによって初期化されます。
さらに、正規直交正則化機能を実装して分析し、$W_p$ の条件数を減らし、最適化をより効率的にできることを証明しました。
SORSA アダプターは推論中にマージできるため、推論の遅延が排除されます。
また、SVD を行うことでパラメータの変化を解析する手法を紹介し、SVD の変化を最小限に抑える点での SORSA の優位性について議論・分析します。
結局のところ、私たちの実験では、SORSA は LoRA や PiSSA よりも速い収束を示しました。
GSM-8K ベンチマークでは、SORSA を使用して適応した Llama 2 7B は 56.03% の精度を達成し、LoRA (42.30%)、AdaLoRA (47.30%)、Full FT (49.05%)、PiSSA (53.07%) を上回りました。
MATH ベンチマークでは、SORSA は 10.36% の精度を達成し、LoRA (5.50%)、AdaLoRA (6.48%)、Full FT (7.22%)、PiSSA (7.44%) を上回りました。
SORSA はパラメータ効率の高い微調整に関する新しい視点を提供し、顕著なパフォーマンスを示していると結論付けています。

要約(オリジナル)

In this paper, we propose Singular Values and Orthonormal Regularized Singular Vectors Adaptation, or SORSA, a novel PEFT method. Each SORSA adapter consists of two main parts: trainable principal singular weights $W_p = U_p \text{diag}(S_p) V^\top_p$, and frozen residual weights $W_r = U_r \text{diag}(S_r) V^\top_r$. These parts are initialized by performing singular value decomposition (SVD) on pre-trained weights. Moreover, we implement and analyze an orthonormal regularizer, which we prove could decrease the condition number of $W_p$ and make the optimization more efficient. SORSA adapters could be merged during inference, thus eliminating any inference latency. We also introduce a method to analyze the variation of the parameters by performing SVD and discuss and analyze SORSA’s superiority in minimizing the alteration in the SVD aspect. After all, SORSA shows a faster convergence than LoRA and PiSSA in our experiments. On the GSM-8K benchmark, Llama 2 7B adapted using SORSA achieved 56.03% accuracy, surpassing LoRA (42.30%), AdaLoRA (47.30%), Full FT (49.05%), and PiSSA (53.07%). On the MATH benchmark, SORSA achieved 10.36% accuracy, outperforming LoRA (5.50%), AdaLoRA (6.48%), Full FT (7.22%), and PiSSA (7.44%). We conclude that SORSA offers a new perspective on parameter-efficient fine-tuning, demonstrating remarkable performance.

arxiv情報

著者 Yang Cao
発行日 2024-11-20 07:08:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク