Spatially heterogeneous learning by a deep student machine

要約

目覚ましい成功にもかかわらず、膨大な数の調整可能なパラメーターを備えたディープ ニューラル ネットワーク (DNN) は、大部分がブラック ボックスのままです。
DNN の隠れ層に光を当てるために、教師と生徒の設定と呼ばれる統計力学アプローチによる $c$ 入力のパーセプトロンで構成される幅 $N$ と深さ $L$ の DNN による教師あり学習を研究します。
教師マシンによって提供される $N$ 次元の入出力関係の $M$ セットを正確に再現する生徒マシンのアンサンブルを考えます。
レプリカ法 (H. Yoshino (2020)) を使用してアンサンブルを理論的に解析し、貪欲なモンテカルロ シミュレーションを数値的に実行します。
高次元データ $N \gg 1$ で機能するレプリカ理論は、固定 $\alpha=M/c$ の ‘dense limit’ $N \gg c \gg 1$ と $M \gg 1$ で正確になります。
理論とシミュレーションの両方が、DNN による学習がネットワーク空間で非常に不均一であることを示唆しています。マシンの構成は、入力/出力境界に近いレイヤー内でより相関していますが、中央領域は過剰なパラメータ化のために相関がはるかに低いままです。
相関が低い中央領域のおかげで、十分に深いシステムはより速く緩和します。
驚くべきことに、理論とシミュレーションの両方が、システムが非常に過剰にパラメータ化される深い限界 $L \gg 1$ でも、スチューデント マシンの一般化能力が消失しないことを示唆しています。
また、隠れ多様体モデル (S. Goldt et al (2020)) をモデルに組み込むことにより、データの有効次元 $D(\leq N)$ の影響を考慮します。
レプリカ理論は、ネットワーク内の異なるノード間の相関を反映する密な限界に対するループ補正が、幅 $\ N$ を減らすか、データの有効次元 $D$ を減らすことによって強化されることを意味します。
シミュレーションは、両方が一般化能力の大幅な改善につながることを示唆しています。

要約(オリジナル)

Despite the spectacular successes, deep neural networks (DNN) with a huge number of adjustable parameters remain largely black boxes. To shed light on the hidden layers of DNN, we study supervised learning by a DNN of width $N$ and depth $L$ consisting of perceptrons with $c$ inputs by a statistical mechanics approach called the teacher-student setting. We consider an ensemble of student machines that exactly reproduce $M$ sets of $N$ dimensional input/output relations provided by a teacher machine. We analyze the ensemble theoretically using a replica method (H. Yoshino (2020)) and numerically performing greedy Monte Carlo simulations. The replica theory which works on high dimensional data $N \gg 1$ becomes exact in ‘dense limit’ $N \gg c \gg 1$ and $M \gg 1$ with fixed $\alpha=M/c$. Both the theory and the simulation suggest learning by the DNN is quite heterogeneous in the network space: configurations of the machines are more correlated within the layers closer to the input/output boundaries while the central region remains much less correlated due to over-parametrization. Deep enough systems relax faster thanks to the less correlated central region. Remarkably both the theory and simulation suggest generalization-ability of the student machines does not vanish even in the deep limit $L \gg 1$ where the system becomes strongly over-parametrized. We also consider the impact of effective dimension $D(\leq N)$ of data by incorporating the hidden manifold model (S. Goldt et al (2020)) into our model. The replica theory implies that the loop corrections to the dense limit, which reflect correlations between different nodes in the network, become enhanced by either decreasing the width $\ N$ or decreasing the effective dimension $D$ of the data. Simulation suggests both leads to significant improvements in generalization-ability.

arxiv情報

著者 Hajime Yoshino
発行日 2023-02-17 16:19:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cond-mat.stat-mech, cs.LG, stat.ML パーマリンク