ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models

要約

ニューラル ネットワークは多くの場合、トレーニング サンプルよりもはるかに多くのパラメーターがあり、トレーニング データを完全に適合させることができる過剰パラメーター化領域で動作します。
つまり、ネットワークをトレーニングすると内挿関数が効果的に学習され、内挿関数のプロパティがネットワークが新しいサンプルに対して行う予測に影響します。
この原稿は、そのような関数の特性が 2 層を超える深さのニューラル ネットワークによってどのように学習されるかを調査します。
私たちのフレームワークは、すべて同じ容量を持つが表現コストが異なる、さまざまな深さのネットワークのファミリーを考慮します。
ニューラル ネットワーク アーキテクチャによって引き起こされる関数の表現コストは、ネットワークが関数を表現するために必要な重みの二乗の最小和です。
これは、アーキテクチャに関連する関数空間のバイアスを反映しています。
私たちの結果は、浅い ReLU ネットワークの入力側に追加の線形層を追加すると、混合変動が少ない関数に有利な表現コストが得られることを示しています。つまり、低次元部分空間に直交する方向の変動は限られており、次のようによく近似できます。
単一または複数のインデックス モデル。
このような関数は、2 層表現コストの低い関数と低ランクの線形演算子を組み合わせて表現できます。
私たちの実験では、標準的なネットワーク トレーニング体制でのこの動作が確認されています。
さらに、線形層が一般化を向上させることができ、データがマルチインデックス モデルを使用して生成された場合、学習されたネットワークが真の潜在的な低次元線形部分空間と適切に整合することも示しています。

要約(オリジナル)

Neural networks often operate in the overparameterized regime, in which there are far more parameters than training samples, allowing the training data to be fit perfectly. That is, training the network effectively learns an interpolating function, and properties of the interpolant affect predictions the network will make on new samples. This manuscript explores how properties of such functions learned by neural networks of depth greater than two layers. Our framework considers a family of networks of varying depths that all have the same capacity but different representation costs. The representation cost of a function induced by a neural network architecture is the minimum sum of squared weights needed for the network to represent the function; it reflects the function space bias associated with the architecture. Our results show that adding additional linear layers to the input side of a shallow ReLU network yields a representation cost favoring functions with low mixed variation – that is, it has limited variation in directions orthogonal to a low-dimensional subspace and can be well approximated by a single- or multi-index model. Such functions may be represented by the composition of a function with low two-layer representation cost and a low-rank linear operator. Our experiments confirm this behavior in standard network training regimes. They additionally show that linear layers can improve generalization and the learned network is well-aligned with the true latent low-dimensional linear subspace when data is generated using a multi-index model.

arxiv情報

著者 Suzanna Parkinson,Greg Ongie,Rebecca Willett
発行日 2024-06-26 16:29:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク