Elixir: Train a Large Language Model on a Small GPU Cluster

要約

近年、大規模な言語モデルは、その前例のないサイズにより大きな成功を収めています。
ただし、これらのモデルのトレーニングには相当な数の GPU が必要となるため、ほとんどの研究者にとって課題が生じます。
GPU メモリの使用量を削減するために、メモリのパーティショニングとメモリのオフロードが提案されています。
これらのアプローチによりメモリの冗長性が排除され、メモリ使用量がそれぞれ CPU と NVMe メモリにオフロードされるため、小規模な GPU クラスターでのトレーニングが可能になります。
ただし、これらのソリューションを直接導入すると、効率が最適以下になることがよくあります。
経験豊富な専門家だけが、分散構成を慎重に調整することでハードウェアの可能性を最大限に引き出すことができます。
そこで、実行前のモデル プロファイリングに基づいて効率的な大規模モデルのトレーニングを自動化する新しいソリューション Elixir を紹介します。
Elixir は、トレーニング スループットを最大化するためにパーティショニングとオフロード技術の最適な組み合わせを特定することを目的としています。
私たちの実験では、Elixir は現在の最先端のベースラインを大幅に上回りました。
当社の最適な構成では、SOTA ソリューションと比較して GPT-2 モデルで最大 3.4 倍の高速化を実現します。
私たちの取り組みが、コンピューティング リソースや専門知識を持たない人々に利益をもたらし、大規模なモデルへのアクセスを可能にすることを願っています。
Elixir のベータ版は現在、https://github.com/hpcaitech/ColossalAI/tree/feature/elixir で入手できます。

要約(オリジナル)

In recent years, large language models have achieved great success due to their unprecedented size. However, training these models poses a challenge for most researchers as it requires a substantial number of GPUs. To reduce GPU memory usage, memory partitioning, and memory offloading have been proposed. These approaches eliminate memory redundancies and offload memory usage to the CPU and NVMe memory, respectively, enabling training on small GPU clusters. However, directly deploying these solutions often leads to suboptimal efficiency. Only experienced experts can unleash the full potential of hardware by carefully tuning the distributed configuration. Thus, we present a novel solution, Elixir, which automates efficient large-model training based on pre-runtime model profiling. Elixir aims to identify the optimal combination of partitioning and offloading techniques to maximize training throughput. In our experiments, Elixir significantly outperforms the current state-of-the-art baseline. Our optimal configuration achieves up to a 3.4$\times$ speedup on GPT-2 models compared with SOTA solutions. We hope that our work will benefit individuals who lack computing resources and expertise, granting them access to large models. The beta version of Elixir is now available at https://github.com/hpcaitech/ColossalAI/tree/feature/elixir.

arxiv情報

著者 Haichen Huang,Jiarui Fang,Hongxin Liu,Shenggui Li,Yang You
発行日 2023-05-31 13:56:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG パーマリンク