Effectively Leveraging Momentum Terms in Stochastic Line Search Frameworks for Fast Optimization of Finite-Sum Problems

要約

この研究では、特に大規模な深層学習シナリオで発生するインスタンスに焦点を当てて、制約のない有限和最適化問題に取り組みます。
私たちの主な関心は、オーバーパラメータ化された領域における確率的最適化のための最近のライン探索アプローチと運動量の方向との間の関係を調査することにあります。
まず、これら 2 つの要素と計算上の利点を組み合わせるのは簡単ではないことを指摘します。
この目的のために、ミニバッチの永続性に基づいたソリューションを提案します。
次に、データの永続性、運動量パラメータの定義のための共役勾配タイプのルール、および確率的ライン検索の組み合わせを利用するアルゴリズム フレームワークを導入します。
結果として得られるアルゴリズムは、文献に記載されている他の一般的な方法よりも優れたパフォーマンスを示し、凸型と非凸型の大規模トレーニング問題の両方で最先端の結果が得られることが経験的に示されています。

要約(オリジナル)

In this work, we address unconstrained finite-sum optimization problems, with particular focus on instances originating in large scale deep learning scenarios. Our main interest lies in the exploration of the relationship between recent line search approaches for stochastic optimization in the overparametrized regime and momentum directions. First, we point out that combining these two elements with computational benefits is not straightforward. To this aim, we propose a solution based on mini-batch persistency. We then introduce an algorithmic framework that exploits a mix of data persistency, conjugate-gradient type rules for the definition of the momentum parameter and stochastic line searches. The resulting algorithm is empirically shown to outperform other popular methods from the literature, obtaining state-of-the-art results in both convex and nonconvex large scale training problems.

arxiv情報

著者 Matteo Lapucci,Davide Pucci
発行日 2024-11-11 16:26:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 65K05, 68T07, 90C06, 90C26, 90C30, cs.LG, math.OC パーマリンク