要約
現代の深い学習の実践では、モデルは多くの場合、トレーニングデータをほぼ補間するために、ゼロ損失に近いように訓練されています。
ただし、モデルのパラメーターの数は通常、データポイントnの数、補間に必要な理論的最小値:オーバーパラメーター化と呼ばれる現象です。
興味深い作業では、BubeckとSellkeは補間の自然な概念を考えました。モデルのトレーニング損失が共変量を考慮して応答の条件付き期待の喪失を下回ると、モデルは補間すると言われています。
補間のこの概念と、広範なクラスの共変量分布(具体的には測定の集中の自然な概念を満たすもの)のために、彼らは、堅牢な補間にオーバーパラメーター化が必要であることを示しました。
彼らの主な証明手法は、スカラー応答に対する平方損失による回帰に適用されますが、レドマチャーの複雑さへの接続と、Ledoux-Talagrand収縮の不平等などのツールを使用することで、少なくともスカラー応答変数の場合、より一般的な損失に拡張できることに注意してください。
この作業では、バイアス分散タイプの分解の観点からバベックとセルケの元の証明手法を再astし、このビューがレデマーチャーの複雑さやledoux-taland contraction storctipplyなどのツールを使用せずに、ブレグマンの分岐損失の一般化を(ベクトル値の応答でも)直接ロック解除することを示しています。
ブレグマンの発散は、自然な損失のクラスです。これらの場合、最良の推定量は共変量を考慮して応答の条件付き期待であり、交差エントロピー損失などの他の実用的な損失を含んでいます。
したがって、私たちの仕事は、BubeckとSellkeの主な証明技術をより一般的に理解し、その幅広い有用性を実証しています。
要約(オリジナル)
In contemporary deep learning practice, models are often trained to near zero loss i.e. to nearly interpolate the training data. However, the number of parameters in the model is usually far more than the number of data points n, the theoretical minimum needed for interpolation: a phenomenon referred to as overparameterization. In an interesting piece of work, Bubeck and Sellke considered a natural notion of interpolation: the model is said to interpolate when the model’s training loss goes below the loss of the conditional expectation of the response given the covariate. For this notion of interpolation and for a broad class of covariate distributions (specifically those satisfying a natural notion of concentration of measure), they showed that overparameterization is necessary for robust interpolation i.e. if the interpolating function is required to be Lipschitz. Their main proof technique applies to regression with square loss against a scalar response, but they remark that via a connection to Rademacher complexity and using tools such as the Ledoux-Talagrand contraction inequality, their result can be extended to more general losses, at least in the case of scalar response variables. In this work, we recast the original proof technique of Bubeck and Sellke in terms of a bias-variance type decomposition, and show that this view directly unlocks a generalization to Bregman divergence losses (even for vector-valued responses), without the use of tools such as Rademacher complexity or the Ledoux-Talagrand contraction principle. Bregman divergences are a natural class of losses since for these, the best estimator is the conditional expectation of the response given the covariate, and include other practical losses such as the cross entropy loss. Our work thus gives a more general understanding of the main proof technique of Bubeck and Sellke and demonstrates its broad utility.
arxiv情報
著者 | Santanu Das,Jatin Batra,Piyush Srivastava |
発行日 | 2025-04-21 12:53:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google