Sliding down the stairs: how correlated latent variables accelerate learning with neural networks

要約

ニューラル ネットワークは、確率的勾配降下法 (SGD) を使用してデータから特徴を抽出します。
特に、高次入力キュムラント (HOC) は、そのパフォーマンスにとって重要です。
ただし、$d$ 次元の入力の $p$ 番目のキュムラントから情報を抽出するのは計算的に困難です。オンライン SGD を使用して次数 $p$ テンソル (テンソル PCA) から単一方向を復元するのに必要なサンプル数は $ が増えるにつれて増加します。
d^{p-1}$ は、高次元の入力には法外です。
この結果は、ニューラル ネットワークが入力の HOC から関連する方向をどのように効率的に抽出するかという疑問を引き起こします。
ここでは、異なる入力キュムラントにエンコードされた方向に沿った潜在変数間の相関により、高次の相関からの学習が高速化されることを示します。
高次元でのランダムな開始からオンライン SGD を使用してこれらの方向を弱く回復するために単一のニューロンが必要とするサンプル数のほぼ鋭いしきい値を導出することで、この効果を分析的に示します。
私たちの分析結果は 2 層ニューラル ネットワークのシミュレーションで確認され、ニューラル ネットワークにおける階層学習の新しいメカニズムを明らかにします。

要約(オリジナル)

Neural networks extract features from data using stochastic gradient descent (SGD). In particular, higher-order input cumulants (HOCs) are crucial for their performance. However, extracting information from the $p$th cumulant of $d$-dimensional inputs is computationally hard: the number of samples required to recover a single direction from an order-$p$ tensor (tensor PCA) using online SGD grows as $d^{p-1}$, which is prohibitive for high-dimensional inputs. This result raises the question of how neural networks extract relevant directions from the HOCs of their inputs efficiently. Here, we show that correlations between latent variables along the directions encoded in different input cumulants speed up learning from higher-order correlations. We show this effect analytically by deriving nearly sharp thresholds for the number of samples required by a single neuron to weakly-recover these directions using online SGD from a random start in high dimensions. Our analytical results are confirmed in simulations of two-layer neural networks and unveil a new mechanism for hierarchical learning in neural networks.

arxiv情報

著者 Lorenzo Bardone,Sebastian Goldt
発行日 2024-04-12 17:01:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.stat-mech, cs.LG, math.PR, math.ST, stat.ML, stat.TH パーマリンク