Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning

要約

ダウンストリーム タスクで大規模な事前トレーニング済み言語モデルを微調整することは、NLP の重要なパラダイムになっています。
ただし、一般的な慣例では、事前にトレーニングされたモデルのすべてのパラメーターを微調整しますが、多数のダウンストリーム タスクが存在する場合、これは非常に困難になります。
したがって、事前トレーニングされた重みの増分更新をパラメーター効率的な方法で学習するために、多くの微調整方法が提案されています。たとえば、低ランクの増分です。
これらの方法は、多くの場合、増分更新の予算をすべての事前トレーニング済み重み行列に均等に分配し、さまざまな重みパラメーターのさまざまな重要性を見落とします。
結果として、微調整のパフォーマンスは最適ではありません。
このギャップを埋めるために、重要度スコアに従って重み行列間でパラメーターの予算を適応的に割り当てる AdaLoRA を提案します。
特に、AdaLoRA は増分更新を特異値分解の形式でパラメータ化します。
このような斬新なアプローチにより、重要でない更新の特異値を効果的に取り除くことができます。これにより、基本的にパラメーターの予算を削減できますが、集中的な正確な SVD 計算を回避できます。
AdaLoRA の有効性を検証するために、自然言語処理、質問応答、自然言語生成に関するいくつかの事前トレーニング済みモデルを使用して広範な実験を行います。
結果は、特に低予算の設定で、AdaLoRA がベースラインよりも顕著な改善を示していることを示しています。
コードは https://github.com/QingruZhang/AdaLoRA で公開されています。

要約(オリジナル)

Fine-tuning large pre-trained language models on downstream tasks has become an important paradigm in NLP. However, common practice fine-tunes all of the parameters in a pre-trained model, which becomes prohibitive when a large number of downstream tasks are present. Therefore, many fine-tuning methods are proposed to learn incremental updates of pre-trained weights in a parameter efficient way, e.g., low-rank increments. These methods often evenly distribute the budget of incremental updates across all pre-trained weight matrices, and overlook the varying importance of different weight parameters. As a consequence, the fine-tuning performance is suboptimal. To bridge this gap, we propose AdaLoRA, which adaptively allocates the parameter budget among weight matrices according to their importance score. In particular, AdaLoRA parameterizes the incremental updates in the form of singular value decomposition. Such a novel approach allows us to effectively prune the singular values of unimportant updates, which is essentially to reduce their parameter budget but circumvent intensive exact SVD computations. We conduct extensive experiments with several pre-trained models on natural language processing, question answering, and natural language generation to validate the effectiveness of AdaLoRA. Results demonstrate that AdaLoRA manifests notable improvement over baselines, especially in the low budget settings. Our code is publicly available at https://github.com/QingruZhang/AdaLoRA .

arxiv情報

著者 Qingru Zhang,Minshuo Chen,Alexander Bukharin,Pengcheng He,Yu Cheng,Weizhu Chen,Tuo Zhao
発行日 2023-03-18 22:36:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク