Smoothing the Edges: A General Framework for Smooth Optimization in Sparse Regularization using Hadamard Overparametrization

要約

この論文は、(構造化された) スパース性に対する $\ell_q$ および $\ell_{p,q}$ 正則化を使用して目的をスムーズに最適化するためのフレームワークを示します。
これらの滑らかではない、おそらくは凸ではない問題の解決策を見つけるには、通常、特殊な最適化ルーチンに依存します。
対照的に、ここで研究した方法は、深層学習で広く普及している既製の (確率的) 勾配降下法と互換性があるため、近似なしで微分可能な疎正則化が可能になります。
提案された最適化の移行は、選択されたモデル パラメーターのオーバーパラメーター化とそれに続くペナルティの変更で構成されます。
オーバーパラメータ化問題では、滑らかで凸な $\ell_2$ 正則化は、元のパラメータ化に非滑らかで非凸な正則化を引き起こします。
結果として生じる代理問題は、同一の大域的最適値を持つだけでなく、局所的最小値も正確に保存することを示します。
これは、グローバル解を見つけることが NP 困難であり、極小値がよく一般化されることが多い非凸正則化で特に役立ちます。
私たちは、一般的な設定におけるスパース性を引き起こすパラメータ化に関するさまざまな文献を統合する統合的な概要を提供し、既存のアプローチを有意義に拡張します。
私たちのアプローチの実現可能性は数値実験を通じて評価され、凸型および非凸型正則化子の一般的な実装と同等またはそれを上回るパフォーマンスによってその有効性が実証されています。

要約(オリジナル)

This paper presents a framework for smooth optimization of objectives with $\ell_q$ and $\ell_{p,q}$ regularization for (structured) sparsity. Finding solutions to these non-smooth and possibly non-convex problems typically relies on specialized optimization routines. In contrast, the method studied here is compatible with off-the-shelf (stochastic) gradient descent that is ubiquitous in deep learning, thereby enabling differentiable sparse regularization without approximations. The proposed optimization transfer comprises an overparametrization of selected model parameters followed by a change of penalties. In the overparametrized problem, smooth and convex $\ell_2$ regularization induces non-smooth and non-convex regularization in the original parametrization. We show that the resulting surrogate problem not only has an identical global optimum but also exactly preserves the local minima. This is particularly useful in non-convex regularization, where finding global solutions is NP-hard and local minima often generalize well. We provide an integrative overview that consolidates various literature strands on sparsity-inducing parametrizations in a general setting and meaningfully extend existing approaches. The feasibility of our approach is evaluated through numerical experiments, demonstrating its effectiveness by matching or outperforming common implementations of convex and non-convex regularizers.

arxiv情報

著者 Chris Kolb,Christian L. Müller,Bernd Bischl,David Rügamer
発行日 2023-08-08 16:05:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク