要約
大規模言語モデル (LLM) のサイズが大きくなるにつれて、従来の完全な微調整は、計算コストとストレージ コストが高くなるため、ますます非現実的になってきています。
LoRA などの一般的なパラメータ効率の高い微調整方法により、調整可能なパラメータの数が大幅に減少しましたが、さらに最適化する余地はまだあります。
この研究では、グローバル共有と部分的適応共有を組み合わせたクロスレイヤーパラメータ共有戦略である ASLoRA を提案します。
具体的には、低ランク行列 A をすべての層で共有し、トレーニング中に行列 B を適応的にマージします。
この共有メカニズムは、過剰適合を効果的に軽減するだけでなく、層間の依存関係も捕捉し、モデルの表現能力を大幅に強化します。
私たちはさまざまな NLP タスクについて広範な実験を実施し、ASLoRA が 25% 未満のパラメーターを使用しながら LoRA よりも優れたパフォーマンスを発揮することを示し、その柔軟性と優れたパラメーター効率を強調しました。
さらに、適応型共有戦略の詳細な分析により、モデルの柔軟性とタスクの適応性の両方を向上させるという大きな利点が確認されています。
要約(オリジナル)
As large language models (LLMs) grow in size, traditional full fine-tuning becomes increasingly impractical due to its high computational and storage costs. Although popular parameter-efficient fine-tuning methods, such as LoRA, have significantly reduced the number of tunable parameters, there is still room for further optimization. In this work, we propose ASLoRA, a cross-layer parameter-sharing strategy combining global sharing with partial adaptive sharing. Specifically, we share the low-rank matrix A across all layers and adaptively merge matrix B during training. This sharing mechanism not only mitigates overfitting effectively but also captures inter-layer dependencies, significantly enhancing the model’s representational capability. We conduct extensive experiments on various NLP tasks, showing that ASLoRA outperforms LoRA while using less than 25% of the parameters, highlighting its flexibility and superior parameter efficiency. Furthermore, in-depth analyses of the adaptive sharing strategy confirm its significant advantages in enhancing both model flexibility and task adaptability.
arxiv情報
著者 | Junyan Hu,Xue Xiao,Mengqi Zhang,Yao Chen,Zhaochun Ren,Zhumin Chen,Pengjie Ren |
発行日 | 2024-12-16 03:05:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google