Sharpness Minimization Algorithms Do Not Only Minimize Sharpness To Achieve Better Generalization

要約

広範な研究にもかかわらず、なぜ過剰パラメータ化されたニューラルネットワークが一般化するのかという根本的な理由は依然として解明されていません。
既存の理論によれば、一般的な確率的オプティマイザーはトレーニング損失の平坦な最小化を好むため、平坦性が一般化を意味するという自然な潜在的な説明が得られます。
この研究はこの説明を批判的に検討します。
理論的および実証的な調査を通じて、2 層 ReLU ネットワークについて次の 3 つのシナリオを特定します。(1) 平坦性は明らかに一般化を意味します。
(2) 非一般化平坦テスト モデルが存在し、シャープネス最小化アルゴリズムは一般化できません。(3) おそらく最も驚くべきことに、非一般化フラットテスト モデルは存在しますが、シャープネス最小化アルゴリズムは依然として一般化します。
私たちの結果は、シャープネスと一般化の関係がデータの分布とモデルのアーキテクチャに微妙に依存し、シャープネス最小化アルゴリズムがより良い一般化を達成するためにシャープネスを最小化するだけではないことを示唆しています。
このため、過剰にパラメータ化されたニューラル ネットワークの一般化について、他の説明を探す必要があります。

要約(オリジナル)

Despite extensive studies, the underlying reason as to why overparameterized neural networks can generalize remains elusive. Existing theory shows that common stochastic optimizers prefer flatter minimizers of the training loss, and thus a natural potential explanation is that flatness implies generalization. This work critically examines this explanation. Through theoretical and empirical investigation, we identify the following three scenarios for two-layer ReLU networks: (1) flatness provably implies generalization; (2) there exist non-generalizing flattest models and sharpness minimization algorithms fail to generalize, and (3) perhaps most surprisingly, there exist non-generalizing flattest models, but sharpness minimization algorithms still generalize. Our results suggest that the relationship between sharpness and generalization subtly depends on the data distributions and the model architectures and sharpness minimization algorithms do not only minimize sharpness to achieve better generalization. This calls for the search for other explanations for the generalization of over-parameterized neural networks.

arxiv情報

著者 Kaiyue Wen,Tengyu Ma,Zhiyuan Li
発行日 2023-07-20 16:34:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク