要約
大型言語モデル(LLMS)は計算高価であり、低ランクの適応(LORA)は、低ランクのマトリックスを介して重量の更新を近似することにより、費用対効果の高いソリューションを提供します。
実際のシナリオでは、LLMは複数のドメインからのデータに微調整され、さまざまな分野でタスクを実行し、マルチタスク学習(MTL)を具体化します。
Loraは、このような複雑なシナリオでしばしばパフォーマンスを低下させます。
マルチタスク学習におけるLORAの能力を高めるために、マルチヘッドランダム化を組み込んだR-LORAを提案します。
マルチヘッドランダム化は、マルチヘッドドロップアウトとマルチヘッドランダム初期化を通じてヘッドマトリックスを多様化し、共有された知識表現を維持しながら、タスク固有の機能のより効率的な学習を可能にします。
私たちのアプローチは、MTLのパフォーマンスを改善するだけでなく、GPUメモリの使用とトレーニング時間を短縮します。
実験は、R-Loraの利益がヘッドマトリックスの多様性の増加に起因し、マルチタスク学習の有効性を示していることを示しています。
このコードは、https://github.com/jinda-liu/r-loraで入手できます
要約(オリジナル)
Fine-tuning large language models (LLMs) is computationally expensive, and Low-Rank Adaptation (LoRA) provides a cost-effective solution by approximating weight updates through low-rank matrices. In real-world scenarios, LLMs are fine-tuned on data from multiple domains to perform tasks across various fields, embodying multi-task learning (MTL). LoRA often underperforms in such complex scenarios. To enhance LoRA’s capability in multi-task learning, we propose R-LoRA, which incorporates Multi-Head Randomization. Multi-Head Randomization diversifies the head matrices through Multi-Head Dropout and Multi-Head Random Initialization, enabling more efficient learning of task-specific features while maintaining shared knowledge representation. Our approach not only improves performance in MTL but also reduces GPU memory usage and training time. Experiments show that R-LoRA’s gains stem from increased diversity in the head matrices, demonstrating its effectiveness for multi-task learning. The code is available at https://github.com/jinda-liu/R-LoRA
arxiv情報
著者 | Jinda Liu,Yi Chang,Yuan Wu |
発行日 | 2025-06-02 16:26:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google