HydraLoRA: An Asymmetric LoRA Architecture for Efficient Fine-Tuning

要約

LoRA などのパラメータ効率の良い微調整 (PEFT) 手法の導入により、微調整を通じて大規模言語モデル (LLM) を新しいタスクに適応させることがより効率的になりました。
ただし、これらの方法は、特に複雑なデータセットが含まれるシナリオでは、完全な微調整と比較してパフォーマンスが劣ることがよくあります。
この問題は複雑なドメインではさらに顕著になり、より優れたパフォーマンスを達成できる改良された PEFT アプローチの必要性が強調されています。
一連の実験を通じて、私たちは LoRA のトレーニングとパラメーターの非効率性を明らかにする 2 つの重要な洞察を明らかにしました。
これらの洞察に基づいて、私たちは、ドメインの専門知識の必要性を排除する非対称構造を備えた LoRA フレームワークである HydraLoRA を開発しました。
私たちの実験では、HydraLoRA が他の PEFT アプローチ (トレーニングおよび推論段階でドメイン知識に依存するアプローチであっても) よりも優れていることが実証されました。

要約(オリジナル)

Adapting Large Language Models (LLMs) to new tasks through fine-tuning has been made more efficient by the introduction of Parameter-Efficient Fine-Tuning (PEFT) techniques, such as LoRA. However, these methods often underperform compared to full fine-tuning, particularly in scenarios involving complex datasets. This issue becomes even more pronounced in complex domains, highlighting the need for improved PEFT approaches that can achieve better performance. Through a series of experiments, we have uncovered two critical insights that shed light on the training and parameter inefficiency of LoRA. Building on these insights, we have developed HydraLoRA, a LoRA framework with an asymmetric structure that eliminates the need for domain expertise. Our experiments demonstrate that HydraLoRA outperforms other PEFT approaches, even those that rely on domain knowledge during the training and inference phases.

arxiv情報

著者 Chunlin Tian,Zhan Shi,Zhijiang Guo,Li Li,Chengzhong Xu
発行日 2024-05-23 15:06:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク