Understanding the Double Descent Phenomenon in Deep Learning

要約

モデルクラスの容量が大きくなるにつれて、汎化ギャップを制御して過剰適合を回避しようとする場合、経験的リスクの最小化と容量制御を組み合わせるのが機械学習の古典的な戦略です。
しかし、現代の深層学習の実践では、非常に大規模な過剰パラメータ化されたモデル (ニューラル ネットワークなど) がトレーニング データに完全に適合するように最適化されており、優れた汎化パフォーマンスが得られます。
内挿点を超えると、モデルの複雑さが増すと実際にテスト誤差が減少するようです。
このチュートリアルでは、二重降下の概念とそのメカニズムについて説明します。
最初のセクションでは、古典的な統計学習フレームワークを設定し、二重降下現象を紹介します。
セクション 2 では、多くの例を見て、複数の補間解の中から滑らかな経験的リスク最小化を選択することにより、二重降下において重要な役割を果たすと思われる帰納的バイアスを紹介します。
最後にセクション 3 では、2 つの線形モデルを使用して二重降下を検討し、最近の関連研究から他の観点を示します。

要約(オリジナル)

Combining empirical risk minimization with capacity control is a classical strategy in machine learning when trying to control the generalization gap and avoid overfitting, as the model class capacity gets larger. Yet, in modern deep learning practice, very large over-parameterized models (e.g. neural networks) are optimized to fit perfectly the training data and still obtain great generalization performance. Past the interpolation point, increasing model complexity seems to actually lower the test error. In this tutorial, we explain the concept of double descent and its mechanisms. The first section sets the classical statistical learning framework and introduces the double descent phenomenon. By looking at a number of examples, section 2 introduces inductive biases that appear to have a key role in double descent by selecting, among the multiple interpolating solutions, a smooth empirical risk minimizer. Finally, section 3 explores the double descent with two linear models, and gives other points of view from recent related works.

arxiv情報

著者 Marc Lafon,Alexandre Thomas
発行日 2024-03-15 16:51:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML パーマリンク