NOLA: Networks as Linear Combination of Low Rank Random Basis

要約

Large Language Model (LLM) は、さまざまなダウンストリーム タスクにわたる優れた少数ショット パフォーマンスにより、最近人気が高まっています。
ただし、すべてのパラメータを微調整し、下流のタスクまたはドメインごとに固有のモデルを保存することは、チェックポイントのサイズが巨大であるため (たとえば、GPT-3 では 350GB) 現実的ではなくなります。
LoRA などの現在の文献では、LLM の元の重みに対する低ランクの変更の可能性が示されており、タスク固有のモデルの効率的な適応と保存が可能になります。
これらの方法により、LLM を微調整するために必要なパラメータの数を数桁減らすことができます。
しかし、これらの方法は 2 つの主要な制限に直面しています。1) パラメーターの削減はランク 1 の分解によって下限が制限される、2) 削減の範囲はモデル アーキテクチャと選択したランクの両方によって大きく影響されます。
たとえば、大規模なモデルでは、ランク 1 の分解でも、適応に実際に必要なパラメータの数を超える可能性があります。
このペーパーでは、LoRA に存在するランク 1 の下限を克服する NOLA を紹介します。
これは、ランダムに生成された行列 (基底) の線形結合を使用して LoRA の低ランク行列を再パラメータ化し、線形混合係数のみを最適化することで実現されます。
このアプローチにより、ランクの選択とネットワーク アーキテクチャの両方からトレーニング可能なパラメーターの数を切り離すことができます。
自然言語タスクとコンピュータービジョンタスクで GPT-2 と ViT を使用した適応結果を示します。
NOLA は、同等のパラメータ数を持つモデルと同等かそれ以上のパフォーマンスを発揮します。
さらに、ランク 1 の LoRA と比較して、より大規模なモデルでパフォーマンスを犠牲にすることなくパラメータを半分にできることを示します。

要約(オリジナル)

Large Language Models (LLMs) have recently gained popularity due to their impressive few-shot performance across various downstream tasks. However, fine-tuning all parameters and storing a unique model for each downstream task or domain becomes impractical because of the massive size of checkpoints (e.g., 350GB in GPT-3). Current literature, such as LoRA, showcases the potential of low-rank modifications to the original weights of an LLM, enabling efficient adaptation and storage for task-specific models. These methods can reduce the number of parameters needed to fine-tune an LLM by several orders of magnitude. Yet, these methods face two primary limitations: 1) the parameter reduction is lower-bounded by the rank one decomposition, and 2) the extent of reduction is heavily influenced by both the model architecture and the chosen rank. For instance, in larger models, even a rank one decomposition might exceed the number of parameters truly needed for adaptation. In this paper, we introduce NOLA, which overcomes the rank one lower bound present in LoRA. It achieves this by re-parameterizing the low-rank matrices in LoRA using linear combinations of randomly generated matrices (basis) and optimizing the linear mixture coefficients only. This approach allows us to decouple the number of trainable parameters from both the choice of rank and the network architecture. We present adaptation results using GPT-2 and ViT in natural language and computer vision tasks. NOLA performs as well as, or better than models with equivalent parameter counts. Furthermore, we demonstrate that we can halve the parameters in larger models compared to LoRA with rank one, without sacrificing performance.

arxiv情報

著者 Soroush Abbasi Koohpayegani,KL Navaneet,Parsa Nooralinejad,Soheil Kolouri,Hamed Pirsiavash
発行日 2023-10-04 03:30:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク