要約
大規模な言語モデル(LLM)の展開株を緩和する上でのネットワークスパースの有効性にもかかわらず、それは大きなパフォーマンスの劣化に耐えます。
低ランクの適応(LORA)を適用してスパースLLMSを微調整することで、この苦境に対抗するための直感的なアプローチがありますが、1)トレーニング後のLLMS LLMSにLORAの重みを統合できないこと、2)パフォーマンスが不十分なパフォーマンスが含まれます。
高い疎剤比での回復。
このホワイトペーパーでは、統合フレームワーク内で低ランクの適応をLLMスパースにシームレスに統合する新しい方法であるダイナミックローランクスパース適応(LOSA)を紹介し、それにより、推論のレイテンシを上げることなくまばらなLLMのパフォーマンスを向上させます。
特に、LOSAは、微調整中の対応するスパースウェイトに基づいてLORAの結果を動的に除いて、LORAモジュールをトレーニング後のまばらなLLMSに統合できることを保証します。
その上、Losaは表現をレバレッショニングする相互情報(RMI)を層の重要性を決定するためのインジケーターとして活用し、それにより微調整中の層ごとのスパース速度を効率的に決定します。
これに基づいて、Losaはレイヤーごとの再構成エラーの変動性に基づいてLORAモジュールのランクを調整し、各レイヤーに適切な微調整を割り当てて、密なLLMとスパースLLMの間の出力の不一致を減らします。
広範な実験では、ロサは、追加の推論的負担を導入することなく、数時間以内にスパースLLMの有効性を効率的に向上させることができます。
たとえば、LosaはスパースLlama-2-7Bの困惑を68.73増加させ、ゼロショット精度を16.32 $ \%$増加させ、CPUで2.60 $ \ Times $ SpeedUpとGPUで2.23 $ \ Times $ SpeedUpを達成し、必要とします。
単一のNVIDIA A100 80GB GPUでのわずか45分の微調整。
コードはhttps://github.com/wzhuang-xmu/losaで入手できます。
要約(オリジナル)
Despite the efficacy of network sparsity in alleviating the deployment strain of Large Language Models (LLMs), it endures significant performance degradation. Applying Low-Rank Adaptation (LoRA) to fine-tune the sparse LLMs offers an intuitive approach to counter this predicament, while it holds shortcomings include: 1) The inability to integrate LoRA weights into sparse LLMs post-training, and 2) Insufficient performance recovery at high sparsity ratios. In this paper, we introduce dynamic Low-rank Sparse Adaptation (LoSA), a novel method that seamlessly integrates low-rank adaptation into LLM sparsity within a unified framework, thereby enhancing the performance of sparse LLMs without increasing the inference latency. In particular, LoSA dynamically sparsifies the LoRA outcomes based on the corresponding sparse weights during fine-tuning, thus guaranteeing that the LoRA module can be integrated into the sparse LLMs post-training. Besides, LoSA leverages Representation Mutual Information (RMI) as an indicator to determine the importance of layers, thereby efficiently determining the layer-wise sparsity rates during fine-tuning. Predicated on this, LoSA adjusts the rank of the LoRA module based on the variability in layer-wise reconstruction errors, allocating an appropriate fine-tuning for each layer to reduce the output discrepancies between dense and sparse LLMs. Extensive experiments tell that LoSA can efficiently boost the efficacy of sparse LLMs within a few hours, without introducing any additional inferential burden. For example, LoSA reduced the perplexity of sparse LLaMA-2-7B by 68.73 and increased zero-shot accuracy by 16.32$\%$, achieving a 2.60$\times$ speedup on CPU and 2.23$\times$ speedup on GPU, requiring only 45 minutes of fine-tuning on a single NVIDIA A100 80GB GPU. Code is available at https://github.com/wzhuang-xmu/LoSA.
arxiv情報
著者 | Weizhong Huang,Yuxin Zhang,Xiawu Zheng,Yang Liu,Jing Lin,Yiwu Yao,Rongrong Ji |
発行日 | 2025-02-20 18:37:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google