要約
Transformer ベースの言語モデルのトレーニングに必要な計算量は、近年急増しています。
この傾向により、標準的なトレーニングよりも速くトレーニング、検証、および下流のパフォーマンスを向上させるように設計された効率的なトレーニング アルゴリズムに関する研究が促進されています。
この作業では、そのようなアルゴリズムの 3 つのカテゴリ、つまり動的アーキテクチャ (レイヤー スタッキング、レイヤー ドロップ)、バッチ選択 (選択的バックプロップ、RHO 損失)、および効率的なオプティマイザー (Lion、Sophia) を再検討します。
このような方法を使用して、固定の計算予算で BERT と T5 を事前トレーニングすると、学習率が完全に減衰したベースラインと比較して、トレーニング、検証、および下流のゲインが消失することがわかります。
すべての計算時間を基準システム時間と呼ぶ基準マシンにマッピングすることで、任意のマシンで計算を実行できるようにする評価プロトコルを定義します。
私たちは提案したプロトコルの制限について議論し、効率的なトレーニング手順に関する厳密な研究を奨励するためにコードを公開します (https://github.com/JeanKaddour/NoTrainNoGain)。
要約(オリジナル)
The computation necessary for training Transformer-based language models has skyrocketed in recent years. This trend has motivated research on efficient training algorithms designed to improve training, validation, and downstream performance faster than standard training. In this work, we revisit three categories of such algorithms: dynamic architectures (layer stacking, layer dropping), batch selection (selective backprop, RHO loss), and efficient optimizers (Lion, Sophia). When pre-training BERT and T5 with a fixed computation budget using such methods, we find that their training, validation, and downstream gains vanish compared to a baseline with a fully-decayed learning rate. We define an evaluation protocol that enables computation to be done on arbitrary machines by mapping all computation time to a reference machine which we call reference system time. We discuss the limitations of our proposed protocol and release our code to encourage rigorous research in efficient training procedures: https://github.com/JeanKaddour/NoTrainNoGain.
arxiv情報
著者 | Jean Kaddour,Oscar Key,Piotr Nawrot,Pasquale Minervini,Matt J. Kusner |
発行日 | 2023-11-13 14:33:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google