要約
低ランク適応 (LoRA) は、大規模言語モデル (LLM) の重み更新の固有の低いランクを活用し、パラメーター効率の良い微調整 (PEFT) パラダイムを確立します。
ただし、LoRA は収束が遅いという問題があります。
Dimension-Sharding Adaptation (DiSHA) を導入します。これにより、PEFT 設計空間が拡張され、デフォルトでより低い固有ランクとより高速な収束が可能になります。
DiSHA の設計空間内で、高いパフォーマンスと効率の両方を実現する計算効率の高い構造である Block Affine Adaptation (Bone) を提案します。
特定の DiSHA 構成では、重み付けシャードが共線的に更新される場合がありますが、これには DiSHA の非線形バリアントであるブロック アフィン変換適応 (BAT) を使用して対処します。
BAT は、トレーニング可能な行列を元の重みシャードと非線形的に組み合わせることで非線形性を導入し、追加のパラメーターを導入することなく行列の更新に非線形性を導入します。
実験結果は、DiSHA フレームワークの下で、Bone が NLG タスクと NLU タスクの両方で一貫して LoRA バリアントを上回り、計算効率が大幅に向上したことを示しています。
さらなる分析により、BAT が非線形設計を活用することでモデルの機能が強化されることが実証されました。
要約(オリジナル)
Low-Rank Adaptation (LoRA) leverages the low intrinsic rank of weight updates in Large Language Models (LLMs), establishing a Parameter-Efficient Fine-Tuning (PEFT) paradigm. However, LoRA suffers from slow convergence. We introduce Dimension-Sharding Adaptation (DiSHA), which expands the PEFT design space to unlock lower intrinsic ranks and faster convergence by default. Within DiSHA’s design space, we propose Block Affine Adaptation (Bone), a computationally efficient structure that delivers both high performance and efficiency. While certain DiSHA configurations may result in colinear updates to weight shards, we address this with Block Affine Transformation Adaptation (BAT), a nonlinear variant of DiSHA. BAT introduces nonlinearity by combining trainable matrices with original weight shards in a nonlinear manner, inducing nonlinearity in matrix updates without introducing additional parameters. Empirical results show that Bone, under the DiSHA framework, consistently outperforms LoRA variants in both NLG and NLU tasks, with significantly improved computational efficiency. Further analysis demonstrates that BAT enhances model capabilities by leveraging its nonlinear design.
arxiv情報
著者 | Jiale Kang |
発行日 | 2024-12-31 08:08:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google