HLQ: Fast and Efficient Backpropagation via Hadamard Low-rank Quantization

要約

モデルのサイズが急速に増大し、さまざまな微調整アプリケーションの重要性が高まっているため、軽量トレーニングが重要になっています。
逆方向パスは順方向パスの 2 倍のコストがかかるため、バックプロパゲーションの最適化が特に重要です。
ただし、このプロセスを変更すると収束が最適化されない可能性があるため、トレーニングの最適化では摂動を最小限に抑える必要があり、これは非常に困難な作業です。
この研究では、畳み込み層と線形層における逆伝播のコストの削減に焦点を当てた、アダマール低ランク量子化 (HLQ) と呼ばれる新しい最適化戦略を導入します。
まず、活性化と重みに関する勾配計算の感度を分析し、4 ビット アダマール量子化を活性化勾配に適用し、アダマールの低ランク近似を重み勾配に適用するように HLQ パイプラインを慎重に設計します。
この組み合わせは利点を最大化するのに最適であることが判明しており、私たちの広範な実験では、ゼロからのトレーニングと微調整の両方において HLQ の優れたパフォーマンスが実証されており、品質の低下を無視して実際の G​​PU で大幅なメモリの節約と高速化を実現しています。

要約(オリジナル)

With the rapid increase in model size and the growing importance of various fine-tuning applications, lightweight training has become crucial. Since the backward pass is twice as expensive as the forward pass, optimizing backpropagation is particularly important. However, modifications to this process can lead to suboptimal convergence, so training optimization should minimize perturbations, which is a highly challenging task. In this study, we introduce a novel optimization strategy called Hadamard Low-rank Quantization (HLQ), focusing on reducing the cost of backpropagation in convolutional and linear layers. We first analyze the sensitivity of gradient computation with respect to activation and weight, and judiciously design the HLQ pipeline to apply 4-bit Hadamard quantization to the activation gradient and Hadamard low-rank approximation to the weight gradient. This combination was found to be the best for maximizing benefits, and our extensive experiments demonstrate the outstanding performance of HLQ in both training from scratch and fine-tuning, achieving significant memory savings and acceleration on real GPUs with negligible quality degradation.

arxiv情報

著者 Seonggon Kim,Eunhyeok Park
発行日 2024-06-21 12:41:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク