Limited-Memory Greedy Quasi-Newton Method with Non-asymptotic Superlinear Convergence Rate

要約

準ニュートン法の非漸近収束解析は、O$((1/\sqrt{t})^t)$ の明示的な局所超線形速度を確立する画期的な結果で注目を集めています。
ただし、このレートを取得する方法にはよく知られた欠点があります。つまり、現在のヘシアン逆近似を形成するには、以前のヘシアン近似行列または過去のすべての曲率情報を保存する必要があります。
有名な L-BFGS などの準ニュートン法のメモリ制限付きバリアントは、過去の曲率情報の限られたウィンドウを利用してヘッセ逆近似を構築することで、この問題を軽減します。
その結果、反復ごとの複雑さとストレージ要件は O$(\tau d)$ になります。ここで $\tau\le d$ はウィンドウのサイズ、$d$ は O$(d^2 を削減する問題の次元です)
)$ 標準的な準ニュートン法の計算コストとメモリ要件。
ただし、私たちの知る限り、限られたメモリの準ニュートン法で非漸近的な超線形収束率を示す結果はありません。
この研究では、明示的な非漸近的超線形レートを達成できる制限メモリ貪欲 BFGS (LG-BFGS) 手法を提示することで、このギャップを埋めます。
変位集約、つまり非相関投影を、変数変動の基底ベクトル選択スキームとともに、後処理勾配変動に組み込んでいます。これにより、ヘッセ行列推定の真のヘシアンへの進行度を貪欲に最大化します。
それらの組み合わせにより、過去の曲率情報をまばらな部分空間に残すことができると同時に、完全な履歴の有効な表現が得られます。
興味深いことに、確立された非漸近的超線形収束率は、収束速度とメモリ要件の間の明示的なトレードオフを示しています。これは、私たちの知る限り、この種のものとしては初めてのものです。
数値結果は私たちの理論的発見を裏付け、私たちの方法の有効性を実証しています。

要約(オリジナル)

Non-asymptotic convergence analysis of quasi-Newton methods has gained attention with a landmark result establishing an explicit local superlinear rate of O$((1/\sqrt{t})^t)$. The methods that obtain this rate, however, exhibit a well-known drawback: they require the storage of the previous Hessian approximation matrix or all past curvature information to form the current Hessian inverse approximation. Limited-memory variants of quasi-Newton methods such as the celebrated L-BFGS alleviate this issue by leveraging a limited window of past curvature information to construct the Hessian inverse approximation. As a result, their per iteration complexity and storage requirement is O$(\tau d)$ where $\tau\le d$ is the size of the window and $d$ is the problem dimension reducing the O$(d^2)$ computational cost and memory requirement of standard quasi-Newton methods. However, to the best of our knowledge, there is no result showing a non-asymptotic superlinear convergence rate for any limited-memory quasi-Newton method. In this work, we close this gap by presenting a Limited-memory Greedy BFGS (LG-BFGS) method that can achieve an explicit non-asymptotic superlinear rate. We incorporate displacement aggregation, i.e., decorrelating projection, in post-processing gradient variations, together with a basis vector selection scheme on variable variations, which greedily maximizes a progress measure of the Hessian estimate to the true Hessian. Their combination allows past curvature information to remain in a sparse subspace while yielding a valid representation of the full history. Interestingly, our established non-asymptotic superlinear convergence rate demonstrates an explicit trade-off between the convergence speed and memory requirement, which to our knowledge, is the first of its kind. Numerical results corroborate our theoretical findings and demonstrate the effectiveness of our method.

arxiv情報

著者 Zhan Gao,Aryan Mokhtari,Alec Koppel
発行日 2023-10-18 17:21:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク