Large Batch Analysis for Adagrad Under Anisotropic Smoothness

要約

適応勾配アルゴリズムは、大規模なディープ ニューラル ネットワーク、特に大規模な基礎モデルのトレーニングに広く採用されています。
実際には大きな成功を収めているにもかかわらず、確率的勾配降下法 (SGD) に勝る理論上の利点は、特に実際に一般的に使用される大きなバッチサイズ設定においては完全には理解されていません。
これは、SGD に対する Adagrad の利点を実証できる唯一の理論的結果が、非滑らかな目的関数に関する Adagrad の元の論文で得られたものであるためです。
ただし、滑らかでない目的関数の場合、バッチ サイズが増加すると収束が直線的に遅くなる可能性があるため、滑らかでない仮定に基づく収束解析は大規模なバッチ アルゴリズムには使用できません。
この研究では、大規模なバッチ設定に適した凸型と非凸型の両方の滑らかな対物レンズに関する Adagrad の新しい分析を提供することで、理論と実践の間のこのギャップを解決します。
異方性の滑らかさとノイズの条件下では、バッチ サイズが増加しても Adagrad の収束が遅くならないため、大規模なバッチ設定でも SGD よりも高速な収束保証を達成できることが示されています。
適応勾配法の利点をより深く理解するために、SGD と Adagrad の詳細な比較を示します。
ロジスティック回帰の実験と微調整タスク後の指導は、理論分析を裏付ける強力な証拠を提供します。

要約(オリジナル)

Adaptive gradient algorithms have been widely adopted in training large-scale deep neural networks, especially large foundation models. Despite their huge success in practice, their theoretical advantages over stochastic gradient descent (SGD) have not been fully understood, especially in the large batch-size setting commonly used in practice. This is because the only theoretical result that can demonstrate the benefit of Adagrad over SGD was obtained in the original paper of Adagrad for nonsmooth objective functions. However, for nonsmooth objective functions, there can be a linear slowdown of convergence when batch size increases, and thus a convergence analysis based on nonsmooth assumption cannot be used for large batch algorithms. In this work, we resolve this gap between theory and practice by providing a new analysis of Adagrad on both convex and nonconvex smooth objectives suitable for the large batch setting. It is shown that under the anisotropic smoothness and noise conditions, increased batch size does not slow down convergence for Adagrad, and thus it can still achieve a faster convergence guarantee over SGD even in the large batch setting. We present detailed comparisons between SGD and Adagrad to provide a better understanding of the benefits of adaptive gradient methods. Experiments in logistic regression and instruction following fine-tuning tasks provide strong evidence to support our theoretical analysis.

arxiv情報

著者 Yuxing Liu,Rui Pan,Tong Zhang
発行日 2024-06-21 15:29:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク