要約
パイプライン並列処理は、大規模なTransformerモデルの学習に不可欠な手法である。しかし、メモリ消費のバランスが悪く、メモリ使用率が十分でないという問題があります。BPipe技術はこの問題に対処するために提案され、GPT-3モデルにおいて有効であることが証明されています。とはいえ、我々の実験ではLLaMAのトレーニングで同様の効果は得られていない。さらに、BPipeはフラッシュアテンションを適用した場合、GPT-3トレーニングでは無視できる程度の効果しか得られない。GPT-3とLLaMAでBPipeの性能が異なる根本的な原因を分析する。さらに、BPipeの性能を推定する新しい方法を紹介する。
要約(オリジナル)
Pipeline parallelism is an essential technique in the training of large-scale Transformer models. However, it suffers from imbalanced memory consumption, leading to insufficient memory utilization. The BPipe technique was proposed to address this issue and has proven effective in the GPT-3 model. Nevertheless, our experiments have not yielded similar benefits for LLaMA training. Additionally, BPipe only yields negligible benefits for GPT-3 training when applying flash attention. We analyze the underlying causes of the divergent performance of BPipe on GPT-3 and LLaMA. Furthermore, we introduce a novel method to estimate the performance of BPipe.
arxiv情報
著者 | Mincong Huang,Chao Wang,Chi Ma,Yineng Zhang,Peng Zhang,Lei Yu |
発行日 | 2024-01-04 06:23:22+00:00 |
arxivサイト | arxiv_id(pdf) |