A stochastic first-order method with multi-extrapolated momentum for highly smooth unconstrained optimization

要約

この論文では、目的関数が高次の滑らかさを示す制約のない確率的最適化問題を検討します。
具体的には、複数の外挿運動量を備えた新しい確率的一次法 (SFOM) を提案します。SFOM では、各反復で複数の外挿が実行され、その後、これらの外挿に基づいて運動量が更新されます。
提案した SFOM が目的関数 $f$ の高次の滑らかさを利用することで最適化を加速できることを示します。
$f$ の $p$ 次導関数がいくつかの $p\ge2$ に対してリプシッツ連続であると仮定し、さらに穏やかな仮定の下で、私たちの方法が $\widetilde{\mathcal{O} のサンプル複雑さを達成することを確立します。
}(\epsilon^{-(3p+1)/p})$ は、次のような点 $x$ を見つけます。 $\mathbb{E}[\|\nabla
f(x)\|]\le\epsilon$。
私たちの知る限り、これは加速のために目的関数の任意次数平滑性を活用した最初の SFOM であり、平均二乗平滑性条件を仮定することなく、最もよく知られている結果よりもサンプルの複雑さが向上します。
予備的な数値実験により、私たちの方法の実際的な性能が検証され、理論的な発見が裏付けられます。

要約(オリジナル)

In this paper, we consider an unconstrained stochastic optimization problem where the objective function exhibits high-order smoothness. Specifically, we propose a new stochastic first-order method (SFOM) with multi-extrapolated momentum, in which multiple extrapolations are performed in each iteration, followed by a momentum update based on these extrapolations. We demonstrate that the proposed SFOM can accelerate optimization by exploiting the high-order smoothness of the objective function $f$. Assuming that the $p$th-order derivative of $f$ is Lipschitz continuous for some $p\ge2$, and under additional mild assumptions, we establish that our method achieves a sample complexity of $\widetilde{\mathcal{O}}(\epsilon^{-(3p+1)/p})$ for finding a point $x$ such that $\mathbb{E}[\|\nabla f(x)\|]\le\epsilon$. To the best of our knowledge, this is the first SFOM to leverage arbitrary-order smoothness of the objective function for acceleration, resulting in a sample complexity that improves upon the best-known results without assuming the mean-squared smoothness condition. Preliminary numerical experiments validate the practical performance of our method and support our theoretical findings.

arxiv情報

著者 Chuan He
発行日 2025-01-10 13:52:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 49M05, 49M37, 90C25, 90C30, cs.AI, cs.LG, math.OC パーマリンク