要約
大規模な言語モデルのトレーニングでは、LoRA などのパラメーター効率の高い手法によりメモリ使用量が最適化され、微調整フェーズでの通信オーバーヘッドとメモリ使用量が削減されます。
ただし、このような手法を事前トレーニング段階で直接適用すると、パフォーマンスが低下します。これは主に、低ランク トレーニングの時期尚早な実装によりモデルの精度が大幅に低下するためです。
ReLoRA や GaLore などの既存の手法は、低ランクの部分空間を更新することでこの課題に対処しようとしました。
ただし、フルランクのトレーニングの精度にはまだ達していません。
具体的には、ReLoRA はオプティマイザーの状態の一貫性を維持するために更新の頻度を制限し、フルランクのトレーニング動作を厳密に近似する機能を妨げます。
一方、GaLore はフルランク空間を近似するために特異値分解 (SVD) に依存しているため、近似プロセス中に精度の低下が生じます。
このペーパーでは、LoRA アダプターのトレーニング可能なパラメーターを代替パラメーターに頻繁かつスムーズに置き換える、パラメーター効率の高いトレーニング手法である SwitchLoRA を紹介します。
SwitchLoRA は、オプティマイザの状態への影響を最小限に抑えるために、一度に少数の次元のみをターゲットにして、低ランクのサブ空間を段階的に更新します。
これにより、より高い更新頻度が可能になり、更新されたパラメータが事前トレーニング段階でフルランクの動作をより厳密に模倣できるようになり、精度が向上します。
私たちの結果は、SwitchLoRA が実際にフルランク トレーニングを上回り、LLaMA 1.3B モデルのパープレキシティを 15.23 から 15.01 に削減し、同時に通信オーバーヘッドを 54\%、メモリ使用量を 13\% 削減したことを示しています。
さらに、SwitchLoRA 事前トレーニング モデルとフルランク事前トレーニング モデルを GLUE ベンチマークで完全に微調整した後、SwitchLoRA 事前トレーニング モデルはフルランク事前トレーニング モデルと比較して平均約 1\% の精度向上を示しました。
訓練されたモデル。
要約(オリジナル)
In the training of large language models, parameter-efficient techniques such as LoRA optimize memory usage and reduce communication overhead and memory usage during the fine-tuning phase. However, applying such techniques directly during the pre-training phase results in poor performance, primarily because the premature implementation of low-rank training significantly reduces model accuracy. Existing methods like ReLoRA and GaLore have attempted to address this challenge by updating the low-rank subspace. However, they still fall short of achieving the accuracy of full-rank training. Specifically, ReLoRA restricts the frequency of updates to preserve optimizer states consistency, hindering its ability to closely approximate full-rank training behavior. Meanwhile, GaLore relies on Singular Value Decomposition (SVD) to approximate the full-rank space, which introduces accuracy loss during the approximation process. In this paper, we introduce SwitchLoRA, a parameter-efficient training technique that frequently and smoothly replaces the trainable parameters of LoRA adapters with alternative parameters. SwitchLoRA updates the low-rank subspace incrementally, targeting only a few dimensions at a time to minimize the impact on optimizer states. This allows a higher update frequency, thereby enhancing accuracy by enabling the updated parameters to more closely mimic full-rank behavior during the pre-training phase. Our results demonstrate that SwitchLoRA actually surpasses full-rank training, reducing perplexity from 15.23 to 15.01 on the LLaMA 1.3B model, while also cutting communication overhead by 54\% and memory usage by 13\%. Furthermore, after full fine-tuning the SwitchLoRA pre-trained model and the full-rank pre-trained model on the GLUE benchmark, the SwitchLoRA pre-trained model showed an average accuracy gain of about 1\% over the full-rank pre-trained model.
arxiv情報
著者 | Kaiye Zhou,Shucheng Wang,Jun Xu |
発行日 | 2025-01-02 17:02:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google