要約
大規模言語モデル (LLM) は、さまざまな自然言語処理 (NLP) タスクにわたって熟練していることが証明されていますが、多くの場合、継続的な事前トレーニングや教師付き微調整などの追加のトレーニングが必要です。
ただし、主にパラメータ数が多いため、これに関連するコストは依然として高いままです。
この論文では、事前訓練された LLM で \emph{sparsity} を活用して、この訓練プロセスを迅速化することを提案します。
前方反復中に活性化されたニューロンの疎性を観察することにより、非活性なニューロンを除外することによる計算速度の向上の可能性を特定します。
私たちは、既存のニューロン重要度評価指標を拡張し、ラダー省略率スケジューラーを導入することで、関連する課題に対処します。
Llama-2 での実験では、Sparsity-Accelerated Training (SAT) が標準トレーニングと同等以上のパフォーマンスを達成しながら、プロセスを大幅に加速することが実証されました。
具体的には、SAT は継続的な事前トレーニングで $45\%$ のスループット向上を達成し、実際の監視付き微調整で $38\%$ のトレーニング時間を節約します。
追加の LLM トレーニング用に、シンプルでハードウェアに依存せず、簡単に導入できるフレームワークを提供します。
私たちのコードは https://github.com/OpenDFM/SAT で入手できます。
要約(オリジナル)
Large language models (LLMs) have demonstrated proficiency across various natural language processing (NLP) tasks but often require additional training, such as continual pre-training and supervised fine-tuning. However, the costs associated with this, primarily due to their large parameter count, remain high. This paper proposes leveraging \emph{sparsity} in pre-trained LLMs to expedite this training process. By observing sparsity in activated neurons during forward iterations, we identify the potential for computational speed-ups by excluding inactive neurons. We address associated challenges by extending existing neuron importance evaluation metrics and introducing a ladder omission rate scheduler. Our experiments on Llama-2 demonstrate that Sparsity-Accelerated Training (SAT) achieves comparable or superior performance to standard training while significantly accelerating the process. Specifically, SAT achieves a $45\%$ throughput improvement in continual pre-training and saves $38\%$ training time in supervised fine-tuning in practice. It offers a simple, hardware-agnostic, and easily deployable framework for additional LLM training. Our code is available at https://github.com/OpenDFM/SAT.
arxiv情報
著者 | Da Ma,Lu Chen,Pengyu Wang,Hongshen Xu,Hanqi Li,Liangtai Sun,Su Zhu,Shuai Fan,Kai Yu |
発行日 | 2024-06-06 16:38:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google