Redundant representations help generalization in wide neural networks

要約

ディープニューラルネットワーク(DNN)は、古典的なバイアス-分散のトレードオフに反し、学習データを補間するDNNにパラメータを追加すると、一般的にその汎化性能が向上する。この「良性のオーバーフィット」のメカニズムを説明することは、依然として未解決の課題である。ここでは、様々な最新の畳み込みニューラルネットワークの最後の隠れ層の表現を研究し、最後の隠れ層の表現が十分に広い場合、そのニューロンは、同一の情報を持ち、統計的に独立したノイズによってのみ互いに異なるグループに分かれる傾向があることを見出した。このようなグループの数は層の幅に比例して増加するが、幅が臨界値以上の場合のみである。我々は、学習過程が内挿に達し、学習誤差がゼロになったときのみ、冗長なニューロンが現れることを示す。

要約(オリジナル)

Deep neural networks (DNNs) defy the classical bias-variance trade-off: adding parameters to a DNN that interpolates its training data will typically improve its generalization performance. Explaining the mechanism behind this “benign overfitting” in deep networks remains an outstanding challenge. Here, we study the last hidden layer representations of various state-of-the-art convolutional neural networks and find that if the last hidden representation is wide enough, its neurons tend to split into groups that carry identical information, and differ from each other only by statistically independent noise. The number of such groups increases linearly with the width of the layer, but only if the width is above a critical value. We show that redundant neurons appear only when the training process reaches interpolation and the training error is zero.

arxiv情報

著者 Diego Doimo,Aldo Glielmo,Sebastian Goldt,Alessandro Laio
発行日 2022-06-06 08:26:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, stat.ML パーマリンク