DyLoRA: Parameter Efficient Tuning of Pre-trained Models using Dynamic Search-Free Low-Rank Adaptation

要約

タイトル:DyLoRA: Dynamic Search-Free Low-Rank Adaptationを使用したパラメータの効率的な調整

要約:

– プレトレーニング済みモデル(PM)のサイズが増大するにつれ、そのファインチューニングはより高価でリソースを要するものとなってきた。
– 低ランクアダプター(LoRA)は、元のPMの重みを固定して、学習可能な縮退SVDモジュール(LoRAブロックと呼ばれる)をモデルに導入することによって、パラメータの効率化に寄与する。
– LoRAブロックはパラメータの効率化に貢献するが、2つの主要な問題がある。第一に、これらのブロックのサイズは固定されており、トレーニング後に変更できない(例えば、LoRAブロックのランクを変更する必要がある場合は、ゼロから再トレーニングする必要がある)。第二に、ランクを最適化するには、網羅的な検索が必要である。
– この研究では、これらの2つの問題を解決するために、動的低ランクアダプタ(DyLoRA)技術を紹介している。DyLoRA方法では、LoRAブロックを単一のランクではなく、複数のランクのためにトレーニングすることで、表現をソートすることにより、最適ランクを見つける。
– 著者らは、さまざまなプレトレーニングモデル(RoBERTaやGPTなど)を使用して、自然言語理解(GLUEベンチマーク)および言語生成タスク(E2E、DART、およびWebNLG)でDyLoRAソリューションを評価し、LoRAよりも4〜7倍高速に動的検索フリーモデルをトレーニングできることを示した。また、LoRAに比べて、広範囲のランクで一貫して良好なパフォーマンスを発揮することも示した。

要約(オリジナル)

With the ever-growing size of pretrained models (PMs), fine-tuning them has become more expensive and resource-hungry. As a remedy, low-rank adapters (LoRA) keep the main pretrained weights of the model frozen and just introduce some learnable truncated SVD modules (so-called LoRA blocks) to the model. While LoRA blocks are parameter-efficient, they suffer from two major problems: first, the size of these blocks is fixed and cannot be modified after training (for example, if we need to change the rank of LoRA blocks, then we need to re-train them from scratch); second, optimizing their rank requires an exhaustive search and effort. In this work, we introduce a dynamic low-rank adaptation (DyLoRA) technique to address these two problems together. Our DyLoRA method trains LoRA blocks for a range of ranks instead of a single rank by sorting the representation learned by the adapter module at different ranks during training. We evaluate our solution on different natural language understanding (GLUE benchmark) and language generation tasks (E2E, DART and WebNLG) using different pretrained models such as RoBERTa and GPT with different sizes. Our results show that we can train dynamic search-free models with DyLoRA at least 4 to 7 times (depending to the task) faster than LoRA without significantly compromising performance. Moreover, our models can perform consistently well on a much larger range of ranks compared to LoRA.

arxiv情報

著者 Mojtaba Valipour,Mehdi Rezagholizadeh,Ivan Kobyzev,Ali Ghodsi
発行日 2023-04-19 04:28:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク