Bayesian-LoRA: LoRA based Parameter Efficient Fine-Tuning using Optimal Quantization levels and Rank Values trough Differentiable Bayesian Gates

要約

自然言語処理では、一般的なドメインで単一のモデルを事前トレーニングし、それを下流のタスクに合わせて微調整するのが一般的です。
ただし、大規模な言語モデルに関しては、モデル全体を微調整すると計算コストが高くなり、非常に大量のエネルギー消費が発生する可能性があります。
その結果、最近、いくつかのパラメータ効率的微調整 (PEFT) アプローチが提案されました。
最も一般的なアプローチの 1 つは低ランク適応 (LoRA) です。このアプローチでは、事前トレーニングされたモデルの更新重みを 2 つの低ランク行列に分解することが重要な洞察になります。
ただし、提案されたアプローチは、すべての異なる重み行列にわたって同じランク値を使用するか(これは次善の選択であることが示されています)、またはモデルのエネルギーに関して最も重要な要素の 1 つである量子化手法を使用しません。
消費。
この研究では、量子化レベルとランク値の両方に事前分布を使用することにより、ベイジアンの観点から低ランクの適応と量子化にアプローチする Bayesian-LoRA を提案します。
その結果、B-LoRA は、特定の下流タスクで事前トレーニングされたモデルを微調整し、すべての低ランク行列に対して最適なランク値と量子化レベルを見つけることができます。
GLUE ベンチマークで事前トレーニングされた DeBERTaV3 を微調整することで、提案されたモデルを検証します。
さらに、それを関連するベースラインと比較し、定性的および定量的な結果の両方を提示し、提案されたアプローチが最適ランクの量子化行列をどのように学習できるかを示します。
B-LoRA は、ベースライン手法と比較してビット演算の総数を約 70% 削減しながら、ベースラインと同等以上のパフォーマンスを発揮します。

要約(オリジナル)

It is a common practice in natural language processing to pre-train a single model on a general domain and then fine-tune it for downstream tasks. However, when it comes to Large Language Models, fine-tuning the entire model can be computationally expensive, resulting in very intensive energy consumption. As a result, several Parameter Efficient Fine-Tuning (PEFT) approaches were recently proposed. One of the most popular approaches is low-rank adaptation (LoRA), where the key insight is decomposing the update weights of the pre-trained model into two low-rank matrices. However, the proposed approaches either use the same rank value across all different weight matrices, which has been shown to be a sub-optimal choice, or do not use any quantization technique, one of the most important factors when it comes to a model’s energy consumption. In this work, we propose Bayesian-LoRA which approaches low-rank adaptation and quantization from a Bayesian perspective by employing a prior distribution on both quantization levels and rank values. As a result, B-LoRA is able to fine-tune a pre-trained model on a specific downstream task, finding the optimal rank values and quantization levels for every low-rank matrix. We validate the proposed model by fine-tuning a pre-trained DeBERTaV3 on the GLUE benchmark. Moreover, we compare it to relevant baselines and present both qualitative and quantitative results, showing how the proposed approach is able to learn optimal-rank quantized matrices. B-LoRA performs on par with or better than the baselines while reducing the total number of bit operations by roughly 70% compared to the baseline methods.

arxiv情報

著者 Cristian Meo,Ksenia Sycheva,Anirudh Goyal,Justin Dauwels
発行日 2024-10-28 17:47:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク