Convergence under Lipschitz smoothness of ease-controlled Random Reshuffling gradient Algorithms

要約

非常に多数の滑らかで、場合によっては非凸関数の平均を最小化することを検討します。
この最適化の問題は、さまざまな分野で多くのアプリケーションが使用されているため、過去数年間で多くの注目を集めるに値しました。最も困難なのは、機械学習モデルのトレーニングです。
この問題を解決するために広く使用されているアプローチは、各反復でコンポーネント関数のミニバッチの勾配に沿って移動する決定ベクトルを更新するミニバッチ勾配法です。
インクリメンタル グラディエント (IG) およびランダム リシャッフル (RR) メソッドを検討します。これらの方法は、サイクルで進行し、固定順序でバッチを選択するか、各エポック後に順序を再シャッフルすることによって行われます。
これらのスキームの収束特性は、さまざまな仮定の下で証明されており、通常は非常に強力です。
IG/RR スキームの簡単に制御できる変更を定義することを目的としています。これは、追加の計算作業が必要であり、非常に弱い標準的な仮定の下で収束することを証明できます。
特に、単調または非単調の 2 つのアルゴリズム スキームを定義します。このスキームでは、ウォッチドッグ ルールと、収束を保証するために散発的にのみアクティブになる導関数のないライン検索を使用して IG/RR 反復を制御します。
2 つのスキームは、メインの IG/RR 反復で使用されるステップサイズの更新を制御することも可能にし、事前設定されたルールの使用を回避します。
コンポーネント関数の勾配のリプシッツ連続性の孤独な仮定の下で収束を証明し、ディープ ニューラル アーキテクチャとデータセットのベンチマークを使用して広範な計算分析を実行します。
私たちの実装を完全なバッチ勾配法とIG / RR法のオンライン標準実装の両方と比較し、計算量が対応するオンライン法と同等であり、学習率の制御によりより速い減少が可能になることを証明します。

要約(オリジナル)

We consider minimizing the average of a very large number of smooth and possibly non-convex functions. This optimization problem has deserved much attention in the past years due to the many applications in different fields, the most challenging being training Machine Learning models. Widely used approaches for solving this problem are mini-batch gradient methods which, at each iteration, update the decision vector moving along the gradient of a mini-batch of the component functions. We consider the Incremental Gradient (IG) and the Random reshuffling (RR) methods which proceed in cycles, picking batches in a fixed order or by reshuffling the order after each epoch. Convergence properties of these schemes have been proved under different assumptions, usually quite strong. We aim to define ease-controlled modifications of the IG/RR schemes, which require a light additional computational effort and can be proved to converge under very weak and standard assumptions. In particular, we define two algorithmic schemes, monotone or non-monotone, in which the IG/RR iteration is controlled by using a watchdog rule and a derivative-free line search that activates only sporadically to guarantee convergence. The two schemes also allow controlling the updating of the stepsize used in the main IG/RR iteration, avoiding the use of preset rules. We prove convergence under the lonely assumption of Lipschitz continuity of the gradients of the component functions and perform extensive computational analysis using Deep Neural Architectures and a benchmark of datasets. We compare our implementation with both full batch gradient methods and online standard implementation of IG/RR methods, proving that the computational effort is comparable with the corresponding online methods and that the control on the learning rate may allow faster decrease.

arxiv情報

著者 Giampaolo Liuzzi,Laura Palagi,Ruggiero Seccia
発行日 2023-03-07 18:26:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 90.C.XX, cs.LG, G.4.1, math.OC パーマリンク