要約
広く使用されているパラメータ効率の良い微調整 (PEFT) 手法の中で、LoRA とそのバリアントは、追加の推論コストを回避できるため、かなりの人気を集めています。
ただし、これらの方法と完全な微調整 (FT) の間には、依然として精度の差が存在することがよくあります。
この研究では、最初に、FT と LoRA 間の固有の違いを調査するための新しい重み分解分析を導入します。
発見からFTの学習能力に似せることを目的として、重み分解低ランク適応(DoRA)を提案します。
DoRA は、事前トレーニングされた重みを大きさと方向の 2 つの要素に分解して微調整します。具体的には方向の更新に LoRA を使用して、トレーニング可能なパラメーターの数を効率的に最小限に抑えます。
DoRA を採用することで、追加の推論オーバーヘッドを回避しながら、LoRA の学習能力とトレーニングの安定性の両方を強化します。
DoRA は、常識的推論、視覚的指示の調整、画像/ビデオ テキストの理解など、さまざまな下流タスクにおける LLaMA、LLaVA、および VL-BART の微調整において、一貫して LoRA を上回っています。
要約(オリジナル)
Among the widely used parameter-efficient finetuning (PEFT) methods, LoRA and its variants have gained considerable popularity because of avoiding additional inference costs. However, there still often exists an accuracy gap between these methods and full fine-tuning (FT). In this work, we first introduce a novel weight decomposition analysis to investigate the inherent differences between FT and LoRA. Aiming to resemble the learning capacity of FT from the findings, we propose Weight-Decomposed LowRank Adaptation (DoRA). DoRA decomposes the pre-trained weight into two components, magnitude and direction, for fine-tuning, specifically employing LoRA for directional updates to efficiently minimize the number of trainable parameters. By employing DoRA, we enhance both the learning capacity and training stability of LoRA while avoiding any additional inference overhead. DoRA consistently outperforms LoRA on fine-tuning LLaMA, LLaVA, and VL-BART on various downstream tasks, such as commonsense reasoning, visual instruction tuning, and image/video-text understanding.
arxiv情報
著者 | Shih-Yang Liu,Chien-Yi Wang,Hongxu Yin,Pavlo Molchanov,Yu-Chiang Frank Wang,Kwang-Ting Cheng,Min-Hung Chen |
発行日 | 2024-02-14 17:59:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google