要約
低ランク適応 (LoRA) は、大規模な言語モデルを微調整するときにトレーニング可能なパラメーターの数を減らす一般的な方法ですが、さらに大きなモデルに拡張したり、多数のユーザーごとまたはタスクごとに適応されたモデルをデプロイしたりする場合には、依然として深刻なストレージの課題に直面しています。
この研究では、ベクトルベースのランダム行列適応 (VeRA) を紹介します。これは、LoRA と比較してトレーニング可能なパラメーターの数を 10 分の 1 に減らしながらも、同じパフォーマンスを維持します。
これは、すべての層で共有される低ランク行列の単一のペアを使用し、代わりに小さなスケーリング ベクトルを学習することによって実現されます。
GLUE および E2E ベンチマークでその有効性を実証し、Llama2 7B モデルを使用してわずか 140 万のパラメーターを使用した命令に従ってそのアプリケーションを示します。
要約(オリジナル)
Low-rank adapation (LoRA) is a popular method that reduces the number of trainable parameters when finetuning large language models, but still faces acute storage challenges when scaling to even larger models or deploying numerous per-user or per-task adapted models. In this work, we present Vector-based Random Matrix Adaptation (VeRA), which reduces the number of trainable parameters by 10x compared to LoRA, yet maintains the same performance. It achieves this by using a single pair of low-rank matrices shared across all layers and learning small scaling vectors instead. We demonstrate its effectiveness on the GLUE and E2E benchmarks, and show its application in instruction-following with just 1.4M parameters using the Llama2 7B model.
arxiv情報
著者 | Dawid Jan Kopiczko,Tijmen Blankevoort,Yuki Markus Asano |
発行日 | 2023-10-17 17:59:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google