Cyclic Coordinate Dual Averaging with Extrapolation

要約

巡回ブロック座標法は、実際に広く使用されている最適化法の基本クラスであり、統計学習用の標準ソフトウェア パッケージの一部として実装されています。
それにもかかわらず、それらの収束は一般によく理解されておらず、これまでのところ、それらの優れた実用的なパフォーマンスは既存の収束解析では説明されていません。
この研究では、単調演算子を使用する変分不等式 (VI) 問題の一般的なクラスに適用する新しいブロック座標法を導入します。
このクラスには、複合凸最適化問題と凸凹最小最大最適化問題が特殊なケースとして含まれており、既存の研究では扱われていません。
結果として得られる収束限界は、完全勾配法の最適収束限界と一致しますが、マハラノビスノルムに関する新しい勾配リプシッツ条件に関して提供されます。
$m$ 座標ブロックの場合、境界内で得られる勾配リプシッツ定数は、従来のユークリッド リプシッツ定数と比較して係数 $\sqrt{m}$ より大きくなることはありませんが、はるかに小さくなる可能性はあります。
さらに、VI の演算子が有限和構造を持つ場合、反復あたりのコストをさらに削減し、特定の領域でより良い収束率を実現する、分散を低減した方法の変形を提案します。
これらの結果を得るために、ブロック座標方向の勾配の周期的なコレクションを 1 つの暗黙的な勾配として表示できる勾配外挿戦略を使用します。

要約(オリジナル)

Cyclic block coordinate methods are a fundamental class of optimization methods widely used in practice and implemented as part of standard software packages for statistical learning. Nevertheless, their convergence is generally not well understood and so far their good practical performance has not been explained by existing convergence analyses. In this work, we introduce a new block coordinate method that applies to the general class of variational inequality (VI) problems with monotone operators. This class includes composite convex optimization problems and convex-concave min-max optimization problems as special cases and has not been addressed by the existing work. The resulting convergence bounds match the optimal convergence bounds of full gradient methods, but are provided in terms of a novel gradient Lipschitz condition w.r.t.~a Mahalanobis norm. For $m$ coordinate blocks, the resulting gradient Lipschitz constant in our bounds is never larger than a factor $\sqrt{m}$ compared to the traditional Euclidean Lipschitz constant, while it is possible for it to be much smaller. Further, for the case when the operator in the VI has finite-sum structure, we propose a variance reduced variant of our method which further decreases the per-iteration cost and has better convergence rates in certain regimes. To obtain these results, we use a gradient extrapolation strategy that allows us to view a cyclic collection of block coordinate-wise gradients as one implicit gradient.

arxiv情報

著者 Chaobing Song,Jelena Diakonikolas
発行日 2023-06-08 16:24:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク