From Gradient Clipping to Normalization for Heavy Tailed SGD

要約

最近の経験的証拠は、多くの機械学習アプリケーションにヘビーテール勾配ノイズが含まれていることを示しており、これは確率的最適化における有界分散の標準的な仮定に疑問を投げかけます。
グラデーション クリッピングは、理論的にも実際的にもこの設定で優れたパフォーマンスを達成するため、このヘビーテール ノイズを処理するための一般的なツールとして浮上しています。
ただし、非凸勾配クリッピングに関する現在の理論的理解には、3 つの主な欠点があります。
第一に、理論は大きく増加するクリッピングしきい値に依存しており、実際に使用される小さな一定のクリッピングしきい値とはまったく対照的です。
第 2 に、クリッピングしきい値には、収束を保証するために問題に依存するパラメーターの知識が必要です。
最後に、この知識があっても、このメソッドの現在のサンプリング複雑さの上限は、ほぼすべてのパラメータにおいて最適ではありません。
これらの問題に対処するために、私たちは正規化 SGD (NSGD) の収束を研究します。
まず、$\mathcal{O}\left(\varepsilon^{-\frac{2p}{p-1}}\right)$ の NSGD のパラメータなしのサンプル複雑度を確立し、$\varepsilon$- を見つけます。
静止点。
さらに、マッチング アルゴリズム固有の下限を提供することで、この結果が厳密であることを証明します。
すべての問題パラメータが既知である設定では、この複雑さは $\mathcal{O}\left(\varepsilon^{-\frac{3p-2}{p-1}}\right)$ に改善され、一致することを示します。
すべての問題依存パラメーターにおけるすべての 1 次メソッドに対する以前から知られている下限。
最後に、故障確率に対する緩やかな対数依存性を伴う NSGD の高確率収束を確立します。
私たちの研究は、ヘビーテールノイズの下での勾配クリッピングの研究を補完し、既存のアルゴリズムのサンプルの複雑さを改善し、高確率の収束を達成するための代替メカニズムを提供します。

要約(オリジナル)

Recent empirical evidence indicates that many machine learning applications involve heavy-tailed gradient noise, which challenges the standard assumptions of bounded variance in stochastic optimization. Gradient clipping has emerged as a popular tool to handle this heavy-tailed noise, as it achieves good performance in this setting both theoretically and practically. However, our current theoretical understanding of non-convex gradient clipping has three main shortcomings. First, the theory hinges on large, increasing clipping thresholds, which are in stark contrast to the small constant clipping thresholds employed in practice. Second, clipping thresholds require knowledge of problem-dependent parameters to guarantee convergence. Lastly, even with this knowledge, current sampling complexity upper bounds for the method are sub-optimal in nearly all parameters. To address these issues, we study convergence of Normalized SGD (NSGD). First, we establish a parameter-free sample complexity for NSGD of $\mathcal{O}\left(\varepsilon^{-\frac{2p}{p-1}}\right)$ to find an $\varepsilon$-stationary point. Furthermore, we prove tightness of this result, by providing a matching algorithm-specific lower bound. In the setting where all problem parameters are known, we show this complexity is improved to $\mathcal{O}\left(\varepsilon^{-\frac{3p-2}{p-1}}\right)$, matching the previously known lower bound for all first-order methods in all problem dependent parameters. Finally, we establish high-probability convergence of NSGD with a mild logarithmic dependence on the failure probability. Our work complements the studies of gradient clipping under heavy tailed noise improving the sample complexities of existing algorithms and offering an alternative mechanism to achieve high probability convergence.

arxiv情報

著者 Florian Hübler,Ilyas Fatkhullin,Niao He
発行日 2024-10-17 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク