$100K or 100 Days: Trade-offs when Pre-Training with Academic Resources

要約

事前トレーニングは計算量が多いことで知られており、学術研究者のリソースが不足していることで知られています。
したがって、学者はモデルを事前トレーニングできないと一般的に考えられています。
本稿では、この仮定を明らかにすることを目指します。
私たちはまず学術研究者を調査して利用可能なコンピューティングを把握し、次にそのようなリソース上でモデルを複製する時間を経験的に測定します。
特定の GPU でモデルを事前トレーニングする時間を測定するベンチマークを紹介し、トレーニング速度を最大化するための理想的な設定も特定します。
私たちはさまざまなモデルとアカデミック GPU でベンチマークを実行し、実験に 2,000 GPU 時間を費やしました。
私たちの結果は、学術的な事前トレーニングのより明るい状況を明らかにしています。たとえば、Pythia-1B は当初 64 GPU で 3 日間トレーニングされましたが、このモデル (同じハイパーパラメーターを使用) を 3 分の 1 の数で複製することも可能であることがわかりました。
GPU 日数: つまり 4 つの GPU で 18 日間。
最後に、価格と事前トレーニング時間の間のトレードオフを明確にするために、費用対効果の分析を行います。
私たちのベンチマークは、学術研究者がより多くのデータで大規模なモデルをトレーニングする必要がある実験を行うのに役立つと信じています。
コードベースは https://github.com/apoorvkh/academic-pretraining で完全にリリースされています。

要約(オリジナル)

Pre-training is notoriously compute-intensive and academic researchers are notoriously under-resourced. It is, therefore, commonly assumed that academics can’t pre-train models. In this paper, we seek to clarify this assumption. We first survey academic researchers to learn about their available compute and then empirically measure the time to replicate models on such resources. We introduce a benchmark to measure the time to pre-train models on given GPUs and also identify ideal settings for maximizing training speed. We run our benchmark on a range of models and academic GPUs, spending 2,000 GPU-hours on our experiments. Our results reveal a brighter picture for academic pre-training: for example, although Pythia-1B was originally trained on 64 GPUs for 3 days, we find it is also possible to replicate this model (with the same hyper-parameters) in 3x fewer GPU-days: i.e. on 4 GPUs in 18 days. We conclude with a cost-benefit analysis to help clarify the trade-offs between price and pre-training time. We believe our benchmark will help academic researchers conduct experiments that require training larger models on more data. We fully release our codebase at: https://github.com/apoorvkh/academic-pretraining.

arxiv情報

著者 Apoorv Khandelwal,Tian Yun,Nihal V. Nayak,Jack Merullo,Stephen H. Bach,Chen Sun,Ellie Pavlick
発行日 2024-10-30 17:46:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク