要約
パラメータ効率の高い方法で事前トレーニングされた大規模言語モデルを微調整することは、その有効性と効率性について広く研究されています。
一般的な低ランク適応法 (LoRA) は、適応プロセスが本質的に低次元であるという仮説を立てた注目すべきアプローチを提供します。
LoRA は賞賛に値するパフォーマンスを示していますが、固定かつ変更不可能な固有のランクで実装されているため、必ずしも理想的な選択であるとは限りません。
より柔軟な適応の必要性を認識し、私たちは LoRA の方法論を、適応プロセス中に固有ランクの動的な調整を可能にするスパース低ランク適応 (SoRA) と呼ばれる革新的なアプローチに拡張しました。
これは、トレーニング段階で近位勾配法で最適化されたゲート ユニットを組み込み、ゲートのスパース性の下でランクのカーディナリティを制御することで実現します。
後続の推論段階では、ゼロ化されたランクに対応するパラメーター ブロックを削除して、各 SoRA モジュールを簡潔でありながらランクが最適な LoRA に戻します。
私たちのアプローチは、LoRA をより高いランクで初期化することで表現力を強化し、同時に、まばらな方法で更新することで一時的に増加したパラメーターの数を効率的に制御します。
さらに、モデルの記憶と一般化に対する非ゼロパラメータの数の影響を調べることを目的として、SoRA のスパース化スケジューラを導入します。
私たちの実験結果は、パラメータが 70% 保持され、トレーニング時間が 70% であっても、SoRA が他のベースラインを上回るパフォーマンスを発揮できることを示しています。
要約(オリジナル)
Fine-tuning pre-trained large language models in a parameter-efficient manner is widely studied for its effectiveness and efficiency. The popular method of low-rank adaptation (LoRA) offers a notable approach, hypothesizing that the adaptation process is intrinsically low-dimensional. Although LoRA has demonstrated commendable performance, it is implemented with a fixed and unalterable intrinsic rank that might not always be the ideal choice. Recognizing the need for more flexible adaptation, we extend the methodology of LoRA to an innovative approach we call sparse low-rank adaptation (SoRA) that enables dynamic adjustments to the intrinsic rank during the adaptation process. We achieve this through the incorporation of a gate unit optimized with proximal gradient method in the training stage, controlling the cardinality of rank under the sparsity of the gate. In the subsequent inference stage, we eliminate the parameter blocks corresponding to the zeroed-out ranks, to reduce each SoRA module back to a concise yet rank-optimal LoRA. Our approach strengthens the representation power of LoRA by initializing it with a higher rank, while efficiently taming a temporarily increased number of parameters via updating in a sparse way. We further introduce a sparsifying scheduler for SoRA, aiming to examine the impact of the number of non-zero parameters on the model’s memorization and generalization. Our experimental results demonstrate that SoRA can outperform other baselines even with 70% retained parameters and 70% training time.
arxiv情報
著者 | Ning Ding,Xingtai Lv,Qiaosen Wang,Yulin Chen,Bowen Zhou,Zhiyuan Liu,Maosong Sun |
発行日 | 2023-11-20 11:56:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google