Run LoRA Run: Faster and Lighter LoRA Implementations

要約

LoRA は、線形層に低ランクのアダプターを導入することで、ニューラル ネットワーク内のトレーニング可能なパラメーターの数を減らす手法です。
この手法は、大規模な言語モデルの微調整と完全なトレーニングの両方に使用されます。
このペーパーでは、低ランクのアダプターを使用したニューラル ネットワークのトレーニングと微調整の速度を大幅に向上させる、LoRA の効率的な実装のための RunLoRA フレームワークについて説明します。
提案された実装では、FLOP と時間推定に基づいて最適な前方および後方計算グラフを選択することで、対応する線形層の次元、層入力次元、lora ランクに基づいて LoRA 操作の計算を最適化し、精度を犠牲にすることなくトレーニングを高速化します。
実験結果では、言語モデリング ネットワークで最大 28\% の高速化が示されています。

要約(オリジナル)

LoRA is a technique that reduces the number of trainable parameters in a neural network by introducing low-rank adapters to linear layers. This technique is used both for fine-tuning and full training of large language models. This paper presents the RunLoRA framework for efficient implementations of LoRA that significantly improves the speed of neural network training and fine-tuning using low-rank adapters. The proposed implementation optimizes the computation of LoRA operations based on dimensions of corresponding linear layer, layer input dimensions and lora rank by choosing best forward and backward computation graph based on FLOPs and time estimations, resulting in faster training without sacrificing accuracy. The experimental results show up to 28\% speedup on language modeling networks.

arxiv情報

著者 Daria Cherniuk,Aleksandr Mikhalev,Ivan Oseledets
発行日 2024-06-14 14:36:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク