Learning from higher-order statistics, efficiently: hypothesis tests, random features, and neural networks

要約

ニューラル ネットワークは、高次元データ セット内の統計パターンを発見することに優れています。
実際には、3 つ以上の変数間の非ガウス相関を定量化する高次キュムラントは、ニューラル ネットワークのパフォーマンスにとって特に重要です。
しかし、高次キュムラントから特徴を抽出する際、ニューラル ネットワークはどの程度効率的でしょうか?
この問題をスパイクキュムラントモデルで研究します。このモデルでは、統計学者は ~$d$ 次元の入力のオーダー $p\ge 4$ キュムラントから特権方向または「スパイク」を回復する必要があります。
まず、スパイクキュムラントモデルからの入力と等方性ガウス入力を厳密に区別するために必要なサンプル数~$n$を分析することにより、スパイクを回復するための基本的な統計的および計算上の限界を特徴付けます。
統計的な区別には $n\gtrsim d$ サンプルが必要ですが、多項式時間で 2 つの分布を区別するには、広範なクラスのアルゴリズム、つまり低次数予想の対象となるアルゴリズムに対して $n \gtrsim d^2$ サンプルが必要であることがわかりました。
これらの結果は、この問題には統計と計算の間に大きなギャップが存在することを示唆しています。
数値実験によると、ニューラル ネットワークは 2 次サンプル複雑度を使用して 2 つの分布を区別することを学習しますが、この領域ではランダム特徴のような「遅延」手法はランダムな推測よりも優れているわけではありません。
私たちの結果は、ニューラル ネットワークがスパイク キュムラント モデルの高次相関から情報を効率的に抽出することを示し、ニューラル ネットワークと高次キュムラントから学習するために必要なランダム特徴量に大きなギャップがあることを明らかにしました。

要約(オリジナル)

Neural networks excel at discovering statistical patterns in high-dimensional data sets. In practice, higher-order cumulants, which quantify the non-Gaussian correlations between three or more variables, are particularly important for the performance of neural networks. But how efficient are neural networks at extracting features from higher-order cumulants? We study this question in the spiked cumulant model, where the statistician needs to recover a privileged direction or ‘spike’ from the order-$p\ge 4$ cumulants of~$d$-dimensional inputs. We first characterise the fundamental statistical and computational limits of recovering the spike by analysing the number of samples~$n$ required to strongly distinguish between inputs from the spiked cumulant model and isotropic Gaussian inputs. We find that statistical distinguishability requires $n\gtrsim d$ samples, while distinguishing the two distributions in polynomial time requires $n \gtrsim d^2$ samples for a wide class of algorithms, i.e. those covered by the low-degree conjecture. These results suggest the existence of a wide statistical-to-computational gap in this problem. Numerical experiments show that neural networks learn to distinguish the two distributions with quadratic sample complexity, while ‘lazy’ methods like random features are not better than random guessing in this regime. Our results show that neural networks extract information from higher-order correlations in the spiked cumulant model efficiently, and reveal a large gap in the amount of data required by neural networks and random features to learn from higher-order cumulants.

arxiv情報

著者 Eszter Székely,Lorenzo Bardone,Federica Gerace,Sebastian Goldt
発行日 2023-12-22 18:55:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.stat-mech, cs.LG, stat.ML パーマリンク