Minimizing Chebyshev Prototype Risk Magically Mitigates the Perils of Overfitting

要約

過剰にパラメータ化されたディープ ニューラル ネットワーク (DNN) は、十分に正規化されていない場合、トレーニング サンプルが過剰適合され、テスト データに対して適切に一般化されない可能性があります。
過学習を防止するために、研究者らは、ネットワークの 1 つ以上の層でクラス内の特徴相関を低減し、クラス間の特徴距離を最大化する多成分損失関数を開発しました。
線形分類器の前に DNN の特徴抽出セクションによって出力された最後から 2 番目の特徴層のアクティベーションを分析することにより、クラス内特徴の共分散とクラス間のプロトタイプ分離の修正された形式が、確率に関する基本的なチェビシェフ上限の重要な要素であることがわかります。
これをチェビシェフ プロトタイプ リスク (CPR) と名付けます。
以前のアプローチの共分散損失項はネットワーク特徴の数に応じて二次関数的にスケールしますが、私たちの CPR 限界は、対数線形時間での近似共分散損失が限界を減らすのに十分であり、大規模なアーキテクチャに拡張可能であることを示しています。
CPR バインドの条件を Explicit CPR (exCPR) 損失関数に実装し、複数のデータセットとネットワーク アーキテクチャの経験的結果から、トレーニング アルゴリズムが過剰適合を軽減し、多くの設定で以前のアプローチを改善していることを観察しました。
私たちのコードは $\href{https://github.com/Deano1718/ Regularization_exCPR}{here}$ から入手できます。

要約(オリジナル)

Overparameterized deep neural networks (DNNs), if not sufficiently regularized, are susceptible to overfitting their training examples and not generalizing well to test data. To discourage overfitting, researchers have developed multicomponent loss functions that reduce intra-class feature correlation and maximize inter-class feature distance in one or more layers of the network. By analyzing the penultimate feature layer activations output by a DNN’s feature extraction section prior to the linear classifier, we find that modified forms of the intra-class feature covariance and inter-class prototype separation are key components of a fundamental Chebyshev upper bound on the probability of misclassification, which we designate the Chebyshev Prototype Risk (CPR). While previous approaches’ covariance loss terms scale quadratically with the number of network features, our CPR bound indicates that an approximate covariance loss in log-linear time is sufficient to reduce the bound and is scalable to large architectures. We implement the terms of the CPR bound into our Explicit CPR (exCPR) loss function and observe from empirical results on multiple datasets and network architectures that our training algorithm reduces overfitting and improves upon previous approaches in many settings. Our code is available $\href{https://github.com/Deano1718/Regularization_exCPR}{here}$.

arxiv情報

著者 Nathaniel Dean,Dilip Sarkar
発行日 2024-04-10 15:16:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, I.5.1 パーマリンク