要約
広義に解釈されるトレーニング アルゴリズムは、あらゆる深層学習パイプラインの重要な部分です。
さまざまなワークロードにわたるトレーニングを高速化するトレーニング アルゴリズムの改善 (更新ルール、チューニング プロトコル、学習率スケジュール、データ選択スキームなど) は、時間を節約し、計算リソースを節約し、より優れた、より正確なモデルにつながる可能性があります。
残念ながら、コミュニティとして、現在、トレーニング アルゴリズムの改善点を確実に特定することはできず、最先端のトレーニング アルゴリズムを特定することさえできません。
この研究では、具体的な実験を使用して、トレーニングの高速化における真の進歩には、トレーニング アルゴリズムの経験的比較が直面する 3 つの基本的な課題を解決する新しいベンチマークが必要であると主張します。(1) トレーニングの完了時期を決定し、トレーニング時間を正確に測定する方法。
2) 正確なワークロードの詳細に対する測定の感度を処理する方法、(3) ハイパーパラメータ調整が必要なアルゴリズムを公正に比較する方法。
これらの課題に対処するために、固定ハードウェア上で実行される複数のワークロードを使用した、結果が得られるまでの時間に優れた競争力のある新しいベンチマーク、AlgoPerf: Training Algorithms ベンチマークを導入しました。
当社のベンチマークには、現在広く使用されている方法よりもワークロードの変更に対してより堅牢なベンチマークの送信を検出できる一連のワークロード バリアントが含まれています。
最後に、現在の実践を代表するさまざまなオプティマイザーと、最近文献で注目を集めている他のオプティマイザーを使用して構築されたベースラインの送信を評価します。
これらのベースライン結果は総合的に、私たちのベンチマークの実現可能性を実証し、手法間に重大なギャップが存在することを示し、将来のベンチマーク提出でそれを超えようとする暫定的な最先端技術を設定します。
要約(オリジナル)
Training algorithms, broadly construed, are an essential part of every deep learning pipeline. Training algorithm improvements that speed up training across a wide variety of workloads (e.g., better update rules, tuning protocols, learning rate schedules, or data selection schemes) could save time, save computational resources, and lead to better, more accurate, models. Unfortunately, as a community, we are currently unable to reliably identify training algorithm improvements, or even determine the state-of-the-art training algorithm. In this work, using concrete experiments, we argue that real progress in speeding up training requires new benchmarks that resolve three basic challenges faced by empirical comparisons of training algorithms: (1) how to decide when training is complete and precisely measure training time, (2) how to handle the sensitivity of measurements to exact workload details, and (3) how to fairly compare algorithms that require hyperparameter tuning. In order to address these challenges, we introduce a new, competitive, time-to-result benchmark using multiple workloads running on fixed hardware, the AlgoPerf: Training Algorithms benchmark. Our benchmark includes a set of workload variants that make it possible to detect benchmark submissions that are more robust to workload changes than current widely-used methods. Finally, we evaluate baseline submissions constructed using various optimizers that represent current practice, as well as other optimizers that have recently received attention in the literature. These baseline results collectively demonstrate the feasibility of our benchmark, show that non-trivial gaps between methods exist, and set a provisional state-of-the-art for future benchmark submissions to try and surpass.
arxiv情報
著者 | George E. Dahl,Frank Schneider,Zachary Nado,Naman Agarwal,Chandramouli Shama Sastry,Philipp Hennig,Sourabh Medapati,Runa Eschenhagen,Priya Kasimbeg,Daniel Suo,Juhan Bae,Justin Gilmer,Abel L. Peirson,Bilal Khan,Rohan Anil,Mike Rabbat,Shankar Krishnan,Daniel Snider,Ehsan Amid,Kongtao Chen,Chris J. Maddison,Rakshith Vasudev,Michal Badura,Ankush Garg,Peter Mattson |
発行日 | 2023-06-12 15:21:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google