A Unified Approach to Controlling Implicit Regularization via Mirror Descent

要約

大規模ニューラル ネットワークの目覚ましい成功に触発されて、過剰パラメータ化されたモデルの汎化パフォーマンスを理解することに大きな関心が集まっています。
最適化アルゴリズムが「優先」ソリューションを通じて一般化にどのような影響を与えるかを特徴付けるために、多大な努力が費やされてきました。この現象は一般に暗黙的な正則化と呼ばれます。
特に、勾配降下法 (GD) は回帰および分類問題において暗黙的な $\ell_2$-norm 正則化を引き起こすと主張されています。
ただし、さまざまなアルゴリズムの暗黙的な正則化は、特定のジオメトリまたは特定のクラスの学習問題に限定されており、暗黙的な正則化を制御するための一般的なアプローチにはギャップがあることが示されています。
これに対処するために、GD の注目すべき一般化であるミラー降下法 (MD) を使用して、回帰設定と分類設定の両方で暗黙の正則化を制御する統一アプローチを提案します。
より具体的には、同次ポテンシャル関数の一般クラスを持つ MD が、線形分類問題の一般化最大余裕解の方向に収束し、それによって分類設定における長年の疑問に答えることを示します。
さらに、MD は効率的に実装でき、適切な条件下で高速な収束が得られることを示します。
包括的な実験を通じて、MD がさまざまな正則化子を備えた学習済みモデルを生成する多用途な方法であり、その結果、さまざまな汎化パフォーマンスが得られることを実証しました。

要約(オリジナル)

Inspired by the remarkable success of large neural networks, there has been significant interest in understanding the generalization performance of over-parameterized models. Substantial efforts have been invested in characterizing how optimization algorithms impact generalization through their ‘preferred’ solutions, a phenomenon commonly referred to as implicit regularization. In particular, it has been argued that gradient descent (GD) induces an implicit $\ell_2$-norm regularization in regression and classification problems. However, the implicit regularization of different algorithms are confined to either a specific geometry or a particular class of learning problems, indicating a gap in a general approach for controlling the implicit regularization. To address this, we present a unified approach using mirror descent (MD), a notable generalization of GD, to control implicit regularization in both regression and classification settings. More specifically, we show that MD with the general class of homogeneous potential functions converges in direction to a generalized maximum-margin solution for linear classification problems, thereby answering a long-standing question in the classification setting. Further, we show that MD can be implemented efficiently and enjoys fast convergence under suitable conditions. Through comprehensive experiments, we demonstrate that MD is a versatile method to produce learned models with different regularizers, which in turn have different generalization performances.

arxiv情報

著者 Haoyuan Sun,Khashayar Gatmiry,Kwangjun Ahn,Navid Azizan
発行日 2024-01-11 14:35:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク