要約
よく訓練された大規模なモデルを下流のタスクに適応させるために、基底ベクトルの線形結合を活用することで元の潜在空間内で学習を制約することを提案します。
このアプローチにより、モデルの機能を損なうことなく安定したトレーニングが保証されます。
従来、行列から正規直交基底を構築するには伝達行列が必要で、これによりパラメータと特徴マップのストレージと計算のオーバーヘッドが大幅に増加します。
この論文では、Q、K、V、O 行列の吸収と分解を導入し、変換行列を必要とせずにそれらの直交化を可能にします。
さらに、Absorb-Decompose 操作により冗長ベクトルが削除され、追加のトレーニングを必要とせずに Whisper-large-v3 のエンコーダ アテンション パラメータが 46.42% 削減されます。
パラメーター効率的で安定した微調整のために、Q、K、V、O を直交正規化し、特異値のみを微調整しました。これにより、元の潜在空間への変更を制限しながら効率的な適応が可能になります。
8 つの常識推論データセットで LLaMA-2-7B を微調整すると、私たちの方法は LoRA を 5.4%、DoRA を 4.4% 上回りました。
要約(オリジナル)
To adapt a well-trained large model to downstream tasks, we propose constraining learning within its original latent space by leveraging linear combinations of its basis vectors. This approach ensures stable training without compromising the model’s capabilities. Traditionally, constructing orthonormal bases from a matrix requires a transfer matrix, which significantly increases storage and computational overhead for parameters and feature maps. In this paper, we introduce Absorb and Decompose for Q, K, V, and O matrices, enabling their orthogonalization without the need for transfer matrices. Furthermore, the Absorb-Decompose operation eliminates redundant vectors, reducing the encoder attention parameters of Whisper-large-v3 by 46.42% without requiring additional training. For parameter-efficient and stable fine-tuning, we orthonormalized Q, K, V, and O and fine-tuned only the singular values, allowing efficient adaptation while constraining changes to the original latent space. When fine-tuning LLaMA-2-7B on eight commonsense reasoning datasets, our method outperforms LoRA by 5.4% and DoRA by 4.4%.
arxiv情報
著者 | Fanxu Meng,Muhan Zhang |
発行日 | 2024-11-26 13:34:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google