LoQT: Low-Rank Adapters for Quantized Pre-Training

要約

大規模なニューラル ネットワークのトレーニングには、大量の計算リソースが必要です。
低ランクのアダプターと量子化を使用した進歩にもかかわらず、消費者向けハードウェアでの LLM などのモデルの事前トレーニングは、モデルのシャーディング、トレーニング中のオフロード、またはレイヤーごとの勾配更新なしでは不可能でした。
これらの制限に対処するために、量子化モデルを効率的にトレーニングする方法である LoQT を提案します。
LoQT は、勾配ベースのテンソル因数分解を使用して、量子化されたフルランクの重み行列に定期的にマージされる低ランクのトレーニング可能な重み行列を初期化します。
私たちのアプローチは、モデルの事前トレーニングと微調整の両方に適しており、言語モデリングと下流タスクの適応について実験的に実証しています。
LoQT を使用すると、コンシューマー グレードの 24GB GPU で最大 7B パラメーターのモデルを効率的にトレーニングできることがわかりました。
また、同じハードウェア上で層ごとの勾配更新を使用して 13B パラメーター モデルをトレーニングする実現可能性も示します。

要約(オリジナル)

Training of large neural networks requires significant computational resources. Despite advances using low-rank adapters and quantization, pretraining of models such as LLMs on consumer hardware has not been possible without model sharding, offloading during training, or per-layer gradient updates. To address these limitations, we propose LoQT, a method for efficiently training quantized models. LoQT uses gradient-based tensor factorization to initialize low-rank trainable weight matrices that are periodically merged into quantized full-rank weight matrices. Our approach is suitable for both pretraining and fine-tuning of models, which we demonstrate experimentally for language modeling and downstream task adaptation. We find that LoQT enables efficient training of models up to 7B parameters on a consumer-grade 24GB GPU. We also demonstrate the feasibility of training a 13B parameter model using per-layer gradient updates on the same hardware.

arxiv情報

著者 Sebastian Loeschcke,Mads Toftrup,Michael J. Kastoryano,Serge Belongie,Vésteinn Snæbjarnarson
発行日 2024-09-09 14:31:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク