要約
早期終了大規模言語モデル (LLM) の大規模なトレーニングと推論のためのフレームワークである EE-LLM を紹介します。
最近の研究では、LLM 推論の高速化における早期終了の有効性に関する予備的な証拠が示されていますが、EE-LLM は、大規模な 3D 並列処理でトレーニングと推論をサポートすることで、早期終了 LLM のスケールアップに向けた基礎的な一歩を踏み出します。
Megatron-LM に基づいて構築された EE-LLM は、パイプライン並列処理による早期終了トレーニング目標のバックプロパゲーションを容易にする軽量の手法、元のパイプラインのアイドル リソースを活用する手法など、早期終了に合わせたさまざまなアルゴリズムの革新とパフォーマンスの最適化を実装しています。
早期終了層に関連する計算のスケジュール、および自己回帰生成のための KV キャッシュと互換性のある早期終了推論の 2 つのアプローチ。
私たちの分析および実証研究では、EE-LLM が標準の LLM トレーニングと比較して無視できる計算オーバーヘッドで優れたトレーニング効率を実現し、出力品質を損なうことなく卓越した推論速度向上を達成することを示しています。
さらなる調査と導入を促進するために、https://github.com/pan-x-c/EE-LLM で EE-LLM をリリースします。
要約(オリジナル)
We present EE-LLM, a framework for large-scale training and inference of early-exit large language models (LLMs). While recent works have shown preliminary evidence for the efficacy of early exiting in accelerating LLM inference, EE-LLM makes a foundational step towards scaling up early-exit LLMs by supporting their training and inference with massive 3D parallelism. Built upon Megatron-LM, EE-LLM implements a variety of algorithmic innovations and performance optimizations tailored to early exiting, including a lightweight method that facilitates backpropagation for the early-exit training objective with pipeline parallelism, techniques of leveraging idle resources in the original pipeline schedule for computation related to early-exit layers, and two approaches of early-exit inference that are compatible with KV caching for autoregressive generation. Our analytical and empirical study shows that EE-LLM achieves great training efficiency with negligible computational overhead compared to standard LLM training, as well as outstanding inference speedup without compromising output quality. To facilitate further research and adoption, we release EE-LLM at https://github.com/pan-x-c/EE-LLM.
arxiv情報
著者 | Yanxi Chen,Xuchen Pan,Yaliang Li,Bolin Ding,Jingren Zhou |
発行日 | 2023-12-08 09:31:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google