FOSI: Hybrid First and Second Order Optimization

要約

2 次の最適化手法は非常に効果的ですが、SGD や Adam などの機械学習で一般的なアプローチは、高次元での曲率の計算が難しいため、1 次の情報のみを使用します。
FOSI は、最適化プロセス中に二次情報を効率的に組み込むことにより、一次オプティマイザーのパフォーマンスを向上させる新しいメタアルゴリズムです。
各反復で、FOSI は関数を直交部分空間で定義された 2 つの 2 次関数に暗黙的に分割し、2 次法を使用して最初の関数を最小化し、ベース オプティマイザーを使用してもう 1 つの関数を最小化します。
FOSI の前提条件と有効な Hessian を分析した結果、FOSI が大規模なオプティマイザー群の条件数を改善することが証明されました。
私たちの経験的評価は、音声分類、転移学習、オブジェクト分類などのいくつかのディープ ニューラル ネットワーク トレーニング タスクに適用された場合、および凸関数に適用された場合に、FOSI が GD、ヘビー ボール、およびアダムの収束率と最適化時間を改善することを示しています。

要約(オリジナル)

Though second-order optimization methods are highly effective, popular approaches in machine learning such as SGD and Adam use only first-order information due to the difficulty of computing curvature in high dimensions. We present FOSI, a novel meta-algorithm that improves the performance of any first-order optimizer by efficiently incorporating second-order information during the optimization process. In each iteration, FOSI implicitly splits the function into two quadratic functions defined on orthogonal subspaces, then uses a second-order method to minimize the first, and the base optimizer to minimize the other. Our analysis of FOSI’s preconditioner and effective Hessian proves that FOSI improves the condition number for a large family of optimizers. Our empirical evaluation demonstrates that FOSI improves the convergence rate and optimization time of GD, Heavy-Ball, and Adam when applied to several deep neural networks training tasks such as audio classification, transfer learning, and object classification and when applied to convex functions.

arxiv情報

著者 Hadar Sivan,Moshe Gabel,Assaf Schuster
発行日 2023-02-16 18:45:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク