Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations

要約

スケールは、強力な機械学習モデルを取得するための主な要素となっています。
結果として、モデルのスケーリング特性を理解することは、適切なトレーニング設定と将来世代のアーキテクチャの両方を効果的に設計するための鍵となります。
この研究では、コサイン スケジュールに依存しているため、スケールとトレーニングの研究が不必要に複雑になっており、同じモデル サイズで異なる長さのトレーニングを行うことができないと主張します。
私たちは、直接的な代替手段 (一定の学習率とクールダウン) のトレーニング動作を調査し、それがコサインと同様に予測可能かつ確実にスケールされることを発見しました。
さらに、確率的重み平均化により、追加のトレーニング コストをかけずに、さまざまなスケールにわたってトレーニング軌跡に沿ったパフォーマンスが向上することを示します。
重要なのは、これらの発見により、少ないながらも再利用可能なトレーニング実行を利用することで、大幅に削減されたコンピューティング時間と GPU 時間でスケーリング実験を実行できることが実証されたことです。

要約(オリジナル)

Scale has become a main ingredient in obtaining strong machine learning models. As a result, understanding a model’s scaling properties is key to effectively designing both the right training setup as well as future generations of architectures. In this work, we argue that scale and training research has been needlessly complex due to reliance on the cosine schedule, which prevents training across different lengths for the same model size. We investigate the training behavior of a direct alternative – constant learning rate and cooldowns – and find that it scales predictably and reliably similar to cosine. Additionally, we show that stochastic weight averaging yields improved performance along the training trajectory, without additional training costs, across different scales. Importantly, with these findings we demonstrate that scaling experiments can be performed with significantly reduced compute and GPU hours by utilizing fewer but reusable training runs.

arxiv情報

著者 Alexander Hägele,Elie Bakouch,Atli Kosson,Loubna Ben Allal,Leandro Von Werra,Martin Jaggi
発行日 2024-05-28 17:33:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク