SLoPe: Double-Pruned Sparse Plus Lazy Low-Rank Adapter Pretraining of LLMs

要約

我々は、LLM 用の Double-Pruned Sparse Plus Lazy Low-rank Adaptor 事前トレーニング手法である SLoPe を提案します。これは、事前トレーニングと推論を高速化し、メモリ フットプリントを削減しながら、スパース LLM の精度を向上させます。
LLM の疎な事前トレーニングはモデルの精度を低下させます。これを克服するために、以前の研究では微調整中に密なモデルを使用しました。
SLoPe は、モデルの事前トレーニングと推論に大幅なオーバーヘッドを追加することなく、事前トレーニングの最後の 1% 反復に低ランクのアダプターを追加することで、まばらに事前トレーニングされたモデルの精度を向上させます。
さらに、SLoPe は、N:M スパース構造を使用して転置された重み行列をプルーニングする二重プルーニングされたバックワード パス定式化を使用し、加速されたスパース バックワード パスを可能にします。
SLoPe は、メモリ使用量を最大 $0.77\times$ と $0.51\times$ 削減しながら、数十億のパラメータを持つモデルのトレーニングと推論をそれぞれ最大 $1.14\times$ と $1.34\times$ (OPT-33B と OPT-66B) まで高速化します。
それぞれトレーニングと推論に使用されます。

要約(オリジナル)

We propose SLoPe, a Double-Pruned Sparse Plus Lazy Low-rank Adapter Pretraining method for LLMs that improves the accuracy of sparse LLMs while accelerating their pretraining and inference and reducing their memory footprint. Sparse pretraining of LLMs reduces the accuracy of the model, to overcome this, prior work uses dense models during fine-tuning. SLoPe improves the accuracy of sparsely pretrained models by adding low-rank adapters in the final 1% iterations of pretraining without adding significant overheads to the model pretraining and inference. In addition, SLoPe uses a double-pruned backward pass formulation that prunes the transposed weight matrix using N:M sparsity structures to enable an accelerated sparse backward pass. SLoPe accelerates the training and inference of models with billions of parameters up to $1.14\times$ and $1.34\times$ respectively (OPT-33B and OPT-66B) while reducing their memory usage by up to $0.77\times$ and $0.51\times$ for training and inference respectively.

arxiv情報

著者 Mohammad Mozaffari,Amir Yazdanbakhsh,Zhao Zhang,Maryam Mehri Dehnavi
発行日 2024-06-14 16:43:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク