要約
$d$ 次元の $n$ 関数の合計を最小化するという問題は、機械学習と統計学において普遍的です。
観測値 $n$ が大きい多くのアプリケーションでは、反復あたりのコストが $n$ に依存しないため、増分法または確率的手法を使用する必要があります。
このうち、準ニュートン (QN) 法は、反復あたりのコストと収束率のバランスをとります。
具体的には、$O(d)$ コストの 1 次法の線形レートや $O(d
^3)$ のコスト。
ただし、既存のインクリメンタル手法には顕著な欠点があります。インクリメンタル準ニュートン (IQN) は漸近的な超線形収束のみを示します。
対照的に、Incremental Greedy BFGS (IGS) は明示的な超線形収束を提供しますが、経験的なパフォーマンスが低く、反復ごとのコストが $O(d^3)$ かかります。
これらの問題に対処するために、明示的な超線形収束率と反復あたり $O(d^2)$ のコストでの優れた経験的パフォーマンスという両方の長所を実現する、Sharpened Lazy Incremental Quasi-Newton Method (SLIQN) を導入します。
。
SLIQN には 2 つの重要な変更点があります。1 つは、クラシック BFGS アップデートと貪欲な BFGS アップデートの両方を使用するハイブリッド戦略を組み込んでおり、経験的に IQN と IGS の両方を上回るパフォーマンスを実現します。
第 2 に、遅延伝播戦略とともに巧妙な定数乗算係数を採用しており、これにより $O(d^2)$ のコストを実現できます。
さらに、私たちの実験は、他の増分および確率的準ニュートン変種に対する SLIQN の優位性を実証し、二次増分法との競争力を確立しました。
要約(オリジナル)
The problem of minimizing the sum of $n$ functions in $d$ dimensions is ubiquitous in machine learning and statistics. In many applications where the number of observations $n$ is large, it is necessary to use incremental or stochastic methods, as their per-iteration cost is independent of $n$. Of these, Quasi-Newton (QN) methods strike a balance between the per-iteration cost and the convergence rate. Specifically, they exhibit a superlinear rate with $O(d^2)$ cost in contrast to the linear rate of first-order methods with $O(d)$ cost and the quadratic rate of second-order methods with $O(d^3)$ cost. However, existing incremental methods have notable shortcomings: Incremental Quasi-Newton (IQN) only exhibits asymptotic superlinear convergence. In contrast, Incremental Greedy BFGS (IGS) offers explicit superlinear convergence but suffers from poor empirical performance and has a per-iteration cost of $O(d^3)$. To address these issues, we introduce the Sharpened Lazy Incremental Quasi-Newton Method (SLIQN) that achieves the best of both worlds: an explicit superlinear convergence rate, and superior empirical performance at a per-iteration $O(d^2)$ cost. SLIQN features two key changes: first, it incorporates a hybrid strategy of using both classic and greedy BFGS updates, allowing it to empirically outperform both IQN and IGS. Second, it employs a clever constant multiplicative factor along with a lazy propagation strategy, which enables it to have a cost of $O(d^2)$. Additionally, our experiments demonstrate the superiority of SLIQN over other incremental and stochastic Quasi-Newton variants and establish its competitiveness with second-order incremental methods.
arxiv情報
著者 | Aakash Lahoti,Spandan Senapati,Ketan Rajawat,Alec Koppel |
発行日 | 2024-03-11 17:37:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google