Learning from higher-order statistics, efficiently: hypothesis tests, random features, and neural networks

要約

ニューラル ネットワークは、高次元データ セット内の統計パターンを発見することに優れています。
実際には、3 つ以上の変数間の非ガウス相関を定量化する高次キュムラントは、ニューラル ネットワークのパフォーマンスにとって特に重要です。
しかし、高次キュムラントから特徴を抽出する際、ニューラル ネットワークはどの程度効率的でしょうか?
この問題をスパイクキュムラントモデルで研究します。このモデルでは、統計学者は $d$ 次元入力の次数 $p\ge 4$ キュムラントから特権方向または「スパイク」を回復する必要があります。
既存の文献では、この問題には統計と計算の大きなギャップが存在することが証明されています。
私たちは、尤度比ノルムの正確な公式を見つけることでこの一連の作業を深めます。これは、統計的な区別には $n\gtrsim d$ サンプルが必要である一方、多項式時間で 2 つの分布を区別するには $n \gtrsim d^2$ サンプルが必要であることを証明します。
幅広いクラスのアルゴリズム、つまり低次数の予想の対象となるアルゴリズム。
数値実験によると、ニューラル ネットワークは実際に 2 次サンプル複雑度を使用して 2 つの分布を区別することを学習しますが、この領域ではランダム特徴のような「遅延」手法はランダムな推測よりも優れているわけではありません。
私たちの結果は、ニューラル ネットワークがスパイク キュムラント モデルの高次相関から情報を効率的に抽出することを示し、ニューラル ネットワークと高次キュムラントから学習するために必要なランダム特徴量に大きなギャップがあることを明らかにしました。

要約(オリジナル)

Neural networks excel at discovering statistical patterns in high-dimensional data sets. In practice, higher-order cumulants, which quantify the non-Gaussian correlations between three or more variables, are particularly important for the performance of neural networks. But how efficient are neural networks at extracting features from higher-order cumulants? We study this question in the spiked cumulant model, where the statistician needs to recover a privileged direction or ‘spike’ from the order-$p\ge 4$ cumulants of $d$-dimensional inputs. Existing literature established the presence of a wide statistical-to-computational gap in this problem. We deepen this line of work by finding an exact formula for the likelihood ratio norm which proves that statistical distinguishability requires $n\gtrsim d$ samples, while distinguishing the two distributions in polynomial time requires $n \gtrsim d^2$ samples for a wide class of algorithms, i.e. those covered by the low-degree conjecture. Numerical experiments show that neural networks do indeed learn to distinguish the two distributions with quadratic sample complexity, while ‘lazy’ methods like random features are not better than random guessing in this regime. Our results show that neural networks extract information from higher-ordercorrelations in the spiked cumulant model efficiently, and reveal a large gap in the amount of data required by neural networks and random features to learn from higher-order cumulants.

arxiv情報

著者 Eszter Székely,Lorenzo Bardone,Federica Gerace,Sebastian Goldt
発行日 2024-06-06 16:48:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.stat-mech, cs.LG, stat.ML パーマリンク