Walking in the Shadow: A New Perspective on Descent Directions for Constrained Minimization


フランク ウルフ頂点に向かう移動、アウェイ ステップ、インフェイス アウェイ ステップ、ペアワイズ方向などの降下方向への移動などの降下方向は、条件付き勾配降下 (CGD) バリアントにおける設計上の重要な考慮事項です。
最適な局所的な降下方向は、負の勾配の投影の方向導関数 (つまり、影) です。
この方向が可能な限り最良のアウェイ ステップであり、離散化するのは簡単ではありませんが、影の中を移動する連続時間ダイナミクスは投影勾配降下法 (PGD) のダイナミクスと同等であることを示します。
また、Frank-Wolfe (FW) 頂点が、負の勾配の方向に「無限」ステップを使用してポリトープ上に投影することに対応していることも示し、これにより、これらのステップに対する新しい視点が提供されます。
これらの洞察を、FW ステップとシャドウ ステップを使用する新しい Shadow-CG 手法に組み合わせます。この手法では、ピラミッド幅ではなく投影曲線内のブレークポイントの数に依存する速度で線形収束を実現します。
我々は、Shadow-CG をさまざまなアプリケーションに計算的に使用する利点を例示する一方で、一般的なポリトープのブレークポイント数の制限を厳しくすることについて未解決の疑問を提起します。


Descent directions such as movement towards Descent directions, including movement towards Frank-Wolfe vertices, away-steps, in-face away-steps and pairwise directions, have been an important design consideration in conditional gradient descent (CGD) variants. In this work, we attempt to demystify the impact of the movement in these directions towards attaining constrained minimizers. The optimal local direction of descent is the directional derivative (i.e., shadow) of the projection of the negative gradient. We show that this direction is the best away-step possible, and the continuous-time dynamics of moving in the shadow is equivalent to the dynamics of projected gradient descent (PGD), although it’s non-trivial to discretize. We also show that Frank-Wolfe (FW) vertices correspond to projecting onto the polytope using an ‘infinite’ step in the direction of the negative gradient, thus providing a new perspective on these steps. We combine these insights into a novel Shadow-CG method that uses FW and shadow steps, while enjoying linear convergence, with a rate that depends on the number of breakpoints in its projection curve, rather than the pyramidal width. We provide a linear bound on the number of breakpoints for simple polytopes and present scaling-invariant upper bounds for general polytopes based on the number of facets. We exemplify the benefit of using Shadow-CG computationally for various applications, while raising an open question about tightening the bound on the number of breakpoints for general polytopes.


著者 Hassan Mortagy,Swati Gupta,Sebastian Pokutta
発行日 2023-08-30 17:19:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク