Dissecting the Runtime Performance of the Training, Fine-tuning, and Inference of Large Language Models

要約

大規模言語モデル(LLM)は、学界と産業界の両方で大きな進歩を遂げており、その人気の結果、LLMの事前学習、微調整、推論を加速するための多くのオープンソースのフレームワークや技術が開発されています。LLMのトレーニングやデプロイは、かなりのコンピューティングリソースとメモリを必要とするため高価であり、そのため、システムパイプラインやオペレータを改善するための効率的なアプローチが数多く開発されている。しかし、実行時の性能はハードウェアやソフトウェアスタックによって大きく異なるため、最適な構成を選択することは困難である。本研究では、マクロとミクロの両方の観点から性能をベンチマークすることを目的とする。まず、3つの8GPUプラットフォーム上で、ZeRO、量子化、再計算、FlashAttentionを含む個々の最適化技術を使用した場合と使用しない場合の、異なるサイズ、すなわち700億、1300億、700億パラメータ(7B、13B、70B)のLLMの事前学習、微調整、およびサービングのエンドツーエンドのパフォーマンスをベンチマークします。次に、LLMの演算および通信オペレータを含むサブモジュールの詳細なランタイム解析を提供するために、さらに深く掘り下げます。エンドユーザーにとっては、我々のベンチマークと調査結果は、LLMを展開するための構成を選択する際に、ハードウェアプラットフォームとともに、様々な最適化技術、トレーニング、推論フレームワークの理解を深めるのに役立つ。研究者にとっては、モジュールごとの詳細な分析により、LLMの実行時性能をさらに最適化するための今後の研究の可能性を見出すことができる。

要約(オリジナル)

Large Language Models (LLMs) have seen great advance in both academia and industry, and their popularity results in numerous open-source frameworks and techniques in accelerating LLM pre-training, fine-tuning, and inference. Training and deploying LLMs are expensive as it requires considerable computing resources and memory, hence many efficient approaches have been developed for improving system pipelines as well as operators. However, the runtime performance can vary significantly across hardware and software stacks, which makes it difficult to choose the best configuration. In this work, we aim to benchmark the performance from both macro and micro perspectives. First, we benchmark the end-to-end performance of pre-training, fine-tuning, and serving LLMs in different sizes , i.e., 7, 13, and 70 billion parameters (7B, 13B, and 70B) on three 8-GPU platforms with and without individual optimization techniques, including ZeRO, quantization, recomputation, FlashAttention. Then, we dive deeper to provide a detailed runtime analysis of the sub-modules, including computing and communication operators in LLMs. For end users, our benchmark and findings help better understand different optimization techniques, training and inference frameworks, together with hardware platforms in choosing configurations for deploying LLMs. For researchers, our in-depth module-wise analyses discover potential opportunities for future work to further optimize the runtime performance of LLMs.

arxiv情報

著者 Longteng Zhang,Xiang Liu,Zeyu Li,Xinglin Pan,Peijie Dong,Ruibo Fan,Rui Guo,Xin Wang,Qiong Luo,Shaohuai Shi,Xiaowen Chu
発行日 2023-12-01 15:37:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG, cs.PF パーマリンク