Reusing Combinatorial Structure: Faster Iterative Projections over Submodular Base Polytopes

要約

射影ニュートン法、FISTA、ミラー降下、およびその変形などの最適化アルゴリズムは、ほぼ最適なリグレット バウンドと収束率を享受しますが、潜在的に各反復で「射影」を計算するという計算上のボトルネックに悩まされます (たとえば、$O(T
^{1/2})$ オンライン ミラー ダウンの後悔)。
一方、条件付き勾配バリアントは、各反復で線形最適化を解決しますが、最適ではないレートになります (たとえば、$O(T^{3/4})$ オンラインの Frank-Wolfe の後悔)。
ランタイム対収束率のこのトレードオフに動機付けられて、広く普及しているサブモジュラー基本ポリトープ $B(f)$ 上の近くのポイントの反復投影を検討します。
まず、ポリトープの同じ面に近い 2 点が投影される場合の必要十分条件を与え、ポリトープから遠く離れた点がその頂点に高い確率で投影されることを示します。
次に、この理論を使用して、離散遠近法と連続遠近法の両方を使用して劣モジュラー ポリトープに対する反復射影の計算を高速化するツールキットを開発します。
その後、この情報を使用して早期終了を可能にするために、離れたステップの Frank-Wolfe アルゴリズムを適応させます。
カーディナリティベースのサブモジュラー ポリトープの特殊なケースでは、特定のブレグマン射影を計算する実行時間を $\Omega(n/\log(n))$ 倍に改善します。
私たちの理論的結果は、予備的な計算実験でランタイムが桁違いに減少することを示しています。

要約(オリジナル)

Optimization algorithms such as projected Newton’s method, FISTA, mirror descent, and its variants enjoy near-optimal regret bounds and convergence rates, but suffer from a computational bottleneck of computing “projections” in potentially each iteration (e.g., $O(T^{1/2})$ regret of online mirror descent). On the other hand, conditional gradient variants solve a linear optimization in each iteration, but result in suboptimal rates (e.g., $O(T^{3/4})$ regret of online Frank-Wolfe). Motivated by this trade-off in runtime v/s convergence rates, we consider iterative projections of close-by points over widely-prevalent submodular base polytopes $B(f)$. We first give necessary and sufficient conditions for when two close points project to the same face of a polytope, and then show that points far away from the polytope project onto its vertices with high probability. We next use this theory and develop a toolkit to speed up the computation of iterative projections over submodular polytopes using both discrete and continuous perspectives. We subsequently adapt the away-step Frank-Wolfe algorithm to use this information and enable early termination. For the special case of cardinality-based submodular polytopes, we improve the runtime of computing certain Bregman projections by a factor of $\Omega(n/\log(n))$. Our theoretical results show orders of magnitude reduction in runtime in preliminary computational experiments.

arxiv情報

著者 Jai Moondra,Hassan Mortagy,Swati Gupta
発行日 2023-03-10 16:54:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク