Bolstering Stochastic Gradient Descent with Model Building

要約

確率的勾配降下法とその変形は、機械学習の問題を解決するための優れた収束率を達成するコア最適化アルゴリズムを構成します。
これらのレートは、特にこれらのアルゴリズムが目前のアプリケーションに合わせて微調整されている場合に得られます。
この調整プロセスには大きな計算コストが必要になる可能性がありますが、最近の研究では、これらのコストは、ステップサイズを繰り返し調整するライン サーチ法によって削減できることが示されています。
フォワード ステップ モデル構築に基づく新しいアルゴリズムを使用して、確率的直線探索の代替アプローチを提案します。
このモデル構築ステップには、ステップサイズだけでなく検索方向も調整できる二次情報が組み込まれています。
深層学習モデルのパラメーターがグループ (テンソルの層) で提供されることに注意して、この方法はそのモデルを構築し、各パラメーター グループの新しいステップを計算します。
この斬新な対角化アプローチにより、選択されたステップ長が適応可能になります。
収束率分析を提供し、提案されたアルゴリズムがよく知られているテスト問題でより高速な収束とより良い一般化を達成することを実験的に示します。
より正確には、SMB は調整の必要が少なく、他の適応方法に匹敵するパフォーマンスを示します。

要約(オリジナル)

Stochastic gradient descent method and its variants constitute the core optimization algorithms that achieve good convergence rates for solving machine learning problems. These rates are obtained especially when these algorithms are fine-tuned for the application at hand. Although this tuning process can require large computational costs, recent work has shown that these costs can be reduced by line search methods that iteratively adjust the stepsize. We propose an alternative approach to stochastic line search by using a new algorithm based on forward step model building. This model building step incorporates second-order information that allows adjusting not only the stepsize but also the search direction. Noting that deep learning model parameters come in groups (layers of tensors), our method builds its model and calculates a new step for each parameter group. This novel diagonalization approach makes the selected step lengths adaptive. We provide convergence rate analysis, and experimentally show that the proposed algorithm achieves faster convergence and better generalization in well-known test problems. More precisely, SMB requires less tuning, and shows comparable performance to other adaptive methods.

arxiv情報

著者 S. Ilker Birbil,Ozgur Martin,Gonenc Onay,Figen Oztoprak
発行日 2023-02-15 16:33:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク