Fundamental computational limits of weak learnability in high-dimensional multi-index models

要約

マルチインデックス モデル (部分空間への投影の非線形変換を通じて共変量にのみ依存する関数) は、ニューラル ネットワークによる特徴学習を調査するための有用なベンチマークです。
この論文では、サンプル数が $ である高次元領域において、一次反復アルゴリズムを使用して低次元構造を弱く回復するために必要な最小限のサンプルの複雑さに特に焦点を当てて、この仮説クラスにおける効率的な学習可能性の理論的限界を検証します。
n=\alpha d$ は共変量次元 $d$ に比例します。
私たちの発見は 3 つの部分で展開されます: (i) まず、どのような条件下で任意の $\alpha\!>\!0$ に対して 1 次アルゴリズムの 1 ステップで自明な部分空間を学習できるかを特定します。
(ii) 第二に、自明な部分空間が空の場合、特定のサンプル複雑度 $\alpha\!>\!\ 以上でのみ学習できる方向からなる簡単な部分空間が存在するための必要十分条件を提供します。
アルファ_c$。
臨界しきい値 $\alpha_{c}$ は、$\alpha\!<\!\alpha_c$ では効率的な反復アルゴリズムが成功しないと推測されるという意味で、計算相転移の存在を示します。 パリティ問題に似た、限られた、しかし興味深い非常に難しい方向のセットでは、$\alpha_c$ が発散することがわかります。 最後に、(iii) 異なる方向間の相互作用により、複雑な階層学習現象が生じる可能性があり、一部の方向をより簡単な方向と組み合わせることで連続的に学習できることを示します。 私たちの分析アプローチは、一次反復法間の近似メッセージパッシング アルゴリズムの最適性に基づいて構築されており、勾配降下法でトレーニングされたニューラル ネットワークを含む、広範なアルゴリズムにわたる基本的な学習可能性の限界を示しています。

要約(オリジナル)

Multi-index models – functions which only depend on the covariates through a non-linear transformation of their projection on a subspace – are a useful benchmark for investigating feature learning with neural networks. This paper examines the theoretical boundaries of efficient learnability in this hypothesis class, focusing particularly on the minimum sample complexity required for weakly recovering their low-dimensional structure with first-order iterative algorithms, in the high-dimensional regime where the number of samples is $n=\alpha d$ is proportional to the covariate dimension $d$. Our findings unfold in three parts: (i) first, we identify under which conditions a trivial subspace can be learned with a single step of a first-order algorithm for any $\alpha\!>\!0$; (ii) second, in the case where the trivial subspace is empty, we provide necessary and sufficient conditions for the existence of an easy subspace consisting of directions that can be learned only above a certain sample complexity $\alpha\!>\!\alpha_c$. The critical threshold $\alpha_{c}$ marks the presence of a computational phase transition, in the sense that it is conjectured that no efficient iterative algorithm can succeed for $\alpha\!<\!\alpha_c$. In a limited but interesting set of really hard directions - akin to the parity problem - $\alpha_c$ is found to diverge. Finally, (iii) we demonstrate that interactions between different directions can result in an intricate hierarchical learning phenomenon, where some directions can be learned sequentially when coupled to easier ones. Our analytical approach is built on the optimality of approximate message-passing algorithms among first-order iterative methods, delineating the fundamental learnability limit across a broad spectrum of algorithms, including neural networks trained with gradient descent.

arxiv情報

著者 Emanuele Troiani,Yatin Dandi,Leonardo Defilippis,Lenka Zdeborová,Bruno Loureiro,Florent Krzakala
発行日 2024-08-21 14:16:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.CC, cs.LG パーマリンク