要約
クリッピング閾値として勾配ノルムの分位数を使用する確率的勾配降下法 (SGD) のクリッピング戦略を導入します。
この新しい戦略は、滑らかな目的 (凸または非凸) に対して堅牢で効率的な最適化アルゴリズムを提供し、裾の重いサンプル (無限の分散を含む) やフーバー汚染に類似したデータ ストリーム内の外れ値の一部を許容することを証明します。
私たちの数学的分析は、一定ステップ サイズ SGD とマルコフ チェーンの間の接続を活用し、クリッピングによって導入されたバイアスを独自の方法で処理します。
強く凸の目的の場合、反復が集中した分布に収束することを証明し、最終的な推定誤差の高い確率の範囲を導き出します。
非凸の場合では、限界分布が勾配の低い近傍に局在化していることを証明します。
我々は、ローリング分位数を使用したこのアルゴリズムの実装を提案します。これは、数値実験によって確認されたように、強力なロバスト性特性を備えた高効率の最適化手順につながります。
要約(オリジナル)
We introduce a clipping strategy for Stochastic Gradient Descent (SGD) which uses quantiles of the gradient norm as clipping thresholds. We prove that this new strategy provides a robust and efficient optimization algorithm for smooth objectives (convex or non-convex), that tolerates heavy-tailed samples (including infinite variance) and a fraction of outliers in the data stream akin to Huber contamination. Our mathematical analysis leverages the connection between constant step size SGD and Markov chains and handles the bias introduced by clipping in an original way. For strongly convex objectives, we prove that the iteration converges to a concentrated distribution and derive high probability bounds on the final estimation error. In the non-convex case, we prove that the limit distribution is localized on a neighborhood with low gradient. We propose an implementation of this algorithm using rolling quantiles which leads to a highly efficient optimization procedure with strong robustness properties, as confirmed by our numerical experiments.
arxiv情報
著者 | Ibrahim Merad,Stéphane Gaïffas |
発行日 | 2023-09-29 15:24:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google