DoRA: Weight-Decomposed Low-Rank Adaptation

要約

広く使われているパラメータ効率的ファインチューニング(PEFT)手法の中で、LoRAとその亜種は、追加の推論コストを回避できることから、かなりの人気を得ている。しかし、これらの手法と完全なファインチューニング(FT)との間には、まだしばしば精度のギャップが存在する。本研究では、まずFTとLoRAの本質的な違いを調べるために、新しい重み分解分析を導入する。得られた知見からFTの学習能力に似せることを目指し、重み分解低ランク適応(DoRA)を提案する。DoRAは、事前学習された重みを大きさと方向の2つの成分に分解して微調整を行い、特に方向の更新にはLoRAを採用することで、学習可能なパラメータ数を効率的に最小化する。を採用することで、LoRAの学習能力と学習の安定性の両方を向上させるとともに、追加の推論オー バーヘッドを回避することができます。\LLaMA、LLaVA、VL-BARTの微調整において、コモンセンス推論、視覚命令チューニング、画像/ビデオテキスト理解などの様々な下流タスクで、ours~はLoRAを一貫して凌駕しています。コードはhttps://github.com/NVlabs/DoRA。

要約(オリジナル)

Among the widely used parameter-efficient fine-tuning (PEFT) methods, LoRA and its variants have gained considerable popularity because of avoiding additional inference costs. However, there still often exists an accuracy gap between these methods and full fine-tuning (FT). In this work, we first introduce a novel weight decomposition analysis to investigate the inherent differences between FT and LoRA. Aiming to resemble the learning capacity of FT from the findings, we propose Weight-Decomposed Low-Rank Adaptation (DoRA). DoRA decomposes the pre-trained weight into two components, magnitude and direction, for fine-tuning, specifically employing LoRA for directional updates to efficiently minimize the number of trainable parameters. By employing \ours, we enhance both the learning capacity and training stability of LoRA while avoiding any additional inference overhead. \ours~consistently outperforms LoRA on fine-tuning LLaMA, LLaVA, and VL-BART on various downstream tasks, such as commonsense reasoning, visual instruction tuning, and image/video-text understanding. Code is available at https://github.com/NVlabs/DoRA.

arxiv情報

著者 Shih-Yang Liu,Chien-Yi Wang,Hongxu Yin,Pavlo Molchanov,Yu-Chiang Frank Wang,Kwang-Ting Cheng,Min-Hung Chen
発行日 2024-06-03 07:27:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク