Pipeline Parallelism with Controllable Memory

要約

パイプラインの並列処理は広く検討されていますが、既存のスケジュールのほとんどには体系的な方法論が欠けています。
この論文では、パイプライン スケジュールをビルディング ブロックの繰り返しとして分解するフレームワークを提案し、ビルディング ブロックの寿命がパイプライン スケジュールのピーク起動メモリを決定することを示します。
観察に基づいて、私たちの知る限り、ほとんどすべての既存のパイプライン スケジュールがメモリ効率が悪いことがわかりました。
これに対処するために、制御可能なアクティベーション メモリを備えたメモリ効率の高いビルディング ブロック ファミリを導入します。これにより、効率を犠牲にすることなくピーク アクティベーション メモリを 1F1B の 1/2 に削減でき、同等のスループットで 1/3 にさえ削減できます。
1F1B と同じアクティベーション メモリを維持しながら、パイプライン バブルをほぼゼロにすることもできます。
私たちの評価では、純粋なパイプライン並列処理設定では、私たちのメソッドがスループットの点で 1F1B よりも 7% ~ 55% 優れていることが示されています。
実際のシナリオでハイブリッド並列処理ハイパーパラメータに対するグリッド検索を採用すると、私たちが提案した方法は、大規模な言語モデルの 1F1B ベースラインと比較して 16% のスループット向上を示します。

要約(オリジナル)

Pipeline parallelism has been widely explored, but most existing schedules lack a systematic methodology. In this paper, we propose a framework to decompose pipeline schedules as repeating a building block and we show that the lifespan of the building block decides the peak activation memory of the pipeline schedule. Guided by the observations, we find that almost all existing pipeline schedules, to the best of our knowledge, are memory inefficient. To address this, we introduce a family of memory efficient building blocks with controllable activation memory, which can reduce the peak activation memory to 1/2 of 1F1B without sacrificing efficiency, and even to 1/3 with comparable throughput. We can also achieve almost zero pipeline bubbles while maintaining the same activation memory as 1F1B. Our evaluations demonstrate that in pure pipeline parallelism settings, our methods outperform 1F1B by from 7% to 55% in terms of throughput. When employing a grid search over hybrid parallelism hyperparameters in practical scenarios, our proposed methods demonstrate a 16% throughput improvement over the 1F1B baseline for large language models.

arxiv情報

著者 Penghui Qi,Xinyi Wan,Nyamdavaa Amar,Min Lin
発行日 2024-05-24 08:54:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DC, cs.LG パーマリンク