Improving the convergence of SGD through adaptive batch sizes

要約

ミニバッチ確率的勾配降下法 (SGD) とその変形は、少数のトレーニング例を使用して目的関数の勾配、別名バッチ サイズを近似します。
バッチサイズが小さいと、各モデル更新に必要な計算はほとんどありませんが、分散の高い勾配推定値が得られる可能性があり、最適化にいくつかの課題が生じます。
逆に、バッチが大きい場合はより多くの計算が必要になりますが、より高精度の勾配推定値が得られます。
この研究では、バッチ サイズをモデルのトレーニング損失に適応させる方法を示します。
さまざまな関数クラスについて、この方法では勾配降下法と同じ順序のモデル更新が必要であると同時に、SGD と同じ順序の勾配計算が必要であることを示します。
この方法では、モデルが更新されるたびにデータセット全体でモデルの損失を評価する必要があります。
ただし、トレーニング損失を近似することにより、必要な計算が大幅に削減されます。
私たちの方法が総計算量を増やすことなく、より少ないモデル更新しか必要としないことを示す実験を提供します。

要約(オリジナル)

Mini-batch stochastic gradient descent (SGD) and variants thereof approximate the objective function’s gradient with a small number of training examples, aka the batch size. Small batch sizes require little computation for each model update but can yield high-variance gradient estimates, which poses some challenges for optimization. Conversely, large batches require more computation but can yield higher precision gradient estimates. This work presents a method to adapt the batch size to the model’s training loss. For various function classes, we show that our method requires the same order of model updates as gradient descent while requiring the same order of gradient computations as SGD. This method requires evaluating the model’s loss on the entire dataset every model update. However, the required computation is greatly reduced by approximating the training loss. We provide experiments that illustrate our methods require fewer model updates without increasing the total amount of computation.

arxiv情報

著者 Scott Sievert,Shrey Shah
発行日 2023-09-27 14:05:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク