Convex Relaxations of ReLU Neural Networks Approximate Global Optima in Polynomial Time

要約

この論文では、重み減衰で正規化された 2 層 ReLU ネットワークとその凸緩和の間の最適性ギャップを研究します。
トレーニング データがランダムである場合、元の問題とその緩和の間の相対的な最適性のギャップは O(log n^0.5) の係数で制限される可能性があることを示します。ここで、n はトレーニング サンプルの数です。
単純なアプリケーションにより、元の非凸問題を対数因数まで解決することが保証される、扱いやすい多項式時間アルゴリズムが得られます。
さらに、穏やかな仮定の下で、局所勾配法は高い確率で学習損失が低い点に収束することを示します。
私たちの結果は既存の結果と比較して指数関数的に改善されており、局所勾配法がなぜうまく機能するのかを理解する上で新たな光を当てています。

要約(オリジナル)

In this paper, we study the optimality gap between two-layer ReLU networks regularized with weight decay and their convex relaxations. We show that when the training data is random, the relative optimality gap between the original problem and its relaxation can be bounded by a factor of O(log n^0.5), where n is the number of training samples. A simple application leads to a tractable polynomial-time algorithm that is guaranteed to solve the original non-convex problem up to a logarithmic factor. Moreover, under mild assumptions, we show that local gradient methods converge to a point with low training loss with high probability. Our result is an exponential improvement compared to existing results and sheds new light on understanding why local gradient methods work well.

arxiv情報

著者 Sungyoon Kim,Mert Pilanci
発行日 2024-07-12 12:55:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク