Flora: Low-Rank Adapters Are Secretly Gradient Compressors

要約

大規模なニューラルネットワークは、様々なタスクをこなす卓越した能力を示すにもかかわらず、学習のための最適化状態を保存するために過剰なメモリ使用量を必要とする。これを軽減するために、より少ないパラメータを学習することで最適化状態を減らす低ランク適応(LoRA)が提案されている。しかし、LoRAは全体の重み更新行列を低ランクに制限し、モデルの性能を制限する。本研究では、LoRAのダイナミクスを調べ、ランダム射影で近似できることを明らかにする。この観察に基づき、投影行列を再サンプリングすることにより、最適化状態の空間複雑度が線形以下でありながら、高ランクの更新を実現できるFloraを提案する。本アプローチの有効性を検証するために、異なるタスクとモデルアーキテクチャで実験を行う。

要約(オリジナル)

Despite large neural networks demonstrating remarkable abilities to complete different tasks, they require excessive memory usage to store the optimization states for training. To alleviate this, the low-rank adaptation (LoRA) is proposed to reduce the optimization states by training fewer parameters. However, LoRA restricts overall weight update matrices to be low-rank, limiting the model performance. In this work, we investigate the dynamics of LoRA and identify that it can be approximated by a random projection. Based on this observation, we propose Flora, which is able to achieve high-rank updates by resampling the projection matrices while enjoying the sublinear space complexity of optimization states. We conduct experiments across different tasks and model architectures to verify the effectiveness of our approach.

arxiv情報

著者 Yongchang Hao,Yanshuai Cao,Lili Mou
発行日 2024-02-05 18:50:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク