要約
低ランク適応 (LoRA) は、トレーニング可能なパラメーターが大幅に削減されるため、大規模言語モデル (LLM) を微調整するためのデフォルトのアプローチとなっています。
ただし、モデルの埋め込み次元の増加に伴い、LoRA のトレーニング可能なパラメーターの需要も増加し、コンピューティング コストの上昇につながります。
さらに、後方更新には高次元の中間アクティベーションとオプティマイザー状態を保存する必要があり、ハイピーク GPU メモリが必要になります。
このペーパーでは、スペクトル分解低次元適応 (LaMDA) による大規模モデルの微調整を紹介します。これは、大規模言語モデルを微調整するための新しいアプローチであり、低次元適応を利用してトレーニング可能なパラメーターとピーク GPU メモリの大幅な削減を実現します。
足跡。
LaMDA は、低次元のトレーニング可能な正方行列を導入しながら、適応パス内の最初の射影行列 (PMA) をフリーズし、トレーニング可能なパラメーターとピーク時の GPU メモリ使用量を大幅に削減します。
LaMDA は、初期の微調整段階で 2 番目の射影行列 (PMB) を段階的にフリーズし、重みの更新に関連する計算コストを削減して、パラメーターの効率をさらに高めます。
また、事前トレーニングされたモデルの重みの正規化されたスペクトル分析を介して、LoRA パスの「ライトウェイト」適応ランク割り当てを組み込んだ拡張機能である LaMDA++ も紹介します。
GLUE ベンチマークによる自然言語理解、テキスト要約、自然言語生成、さまざまな LLM での複雑な推論など、さまざまなタスクにわたって LaMDA/LaMDA++ を評価します。
結果は、LaMDA が既存の代替手段と同等またはそれを上回るパフォーマンスを示しながら、微調整中のパラメーター更新の必要性が最大 17.7 倍少なく、ピーク時の GPU メモリ使用量が最大 1.32 倍少ないことを示しています。
コードは公開される予定です。
要約(オリジナル)
Low-rank adaptation (LoRA) has become the default approach to fine-tune large language models (LLMs) due to its significant reduction in trainable parameters. However, trainable parameter demand for LoRA increases with increasing model embedding dimensions, leading to high compute costs. Additionally, its backward updates require storing high-dimensional intermediate activations and optimizer states, demanding high peak GPU memory. In this paper, we introduce large model fine-tuning via spectrally decomposed low-dimensional adaptation (LaMDA), a novel approach to fine-tuning large language models, which leverages low-dimensional adaptation to achieve significant reductions in trainable parameters and peak GPU memory footprint. LaMDA freezes a first projection matrix (PMA) in the adaptation path while introducing a low-dimensional trainable square matrix, resulting in substantial reductions in trainable parameters and peak GPU memory usage. LaMDA gradually freezes a second projection matrix (PMB) during the early fine-tuning stages, reducing the compute cost associated with weight updates to enhance parameter efficiency further. We also present an enhancement, LaMDA++, incorporating a “lite-weight’ adaptive rank allocation for the LoRA path via normalized spectrum analysis of pre-trained model weights. We evaluate LaMDA/LaMDA++ across various tasks, including natural language understanding with the GLUE benchmark, text summarization, natural language generation, and complex reasoning on different LLMs. Results show that LaMDA matches or surpasses the performance of existing alternatives while requiring up to 17.7x fewer parameter updates and up to 1.32x lower peak GPU memory usage during fine-tuning. Code will be publicly available.
arxiv情報
著者 | Seyedarmin Azizi,Souvik Kundu,Massoud Pedram |
発行日 | 2024-06-18 17:52:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google