Learning sum of diverse features: computational hardness and efficient gradient-based training for ridge combinations

要約

加法構造、つまり $f_*(x) = \frac{1} を使用したターゲット関数 $f_*:\mathbb{R}^d\to\mathbb{R}$ を学習する際の計算量とサンプルの複雑さを研究します。
{\sqrt{M}}\sum_{m=1}^M f_m(\langle x, v_m\rangle)$、ここで $f_1,f_2,…,f_M:\mathbb{R}\to\mathbb{
R}$ は、多様で直交に近い指数特徴 $\{v_m\}_{m=1}^M$ を持つ単一指数モデル (リッジ関数) の非線形リンク関数であり、加法タスク $M$ の数は増加します
$\gamma\ge 0$ の次元は $M\asymp d^\gamma$ です。
この問題設定は、古典的な相加的モデルの文献、最近の 2 層ニューラル ネットワークの表現学習理論、およびモデルがシステムの異なる部分に局在することが多い多数の「スキル」を同時に獲得する大規模な事前トレーニングによって動機付けられています。
訓練されたネットワーク。
多項式 $f_*$ の大きなサブセットは、タスク $M$ とタスクの情報指数に依存する多項式の統計的および計算的複雑さを持つ 2 層ニューラル ネットワークの勾配降下トレーニングによって効率的に学習できることを証明します。
$f_m$ は未知のリンク関数と $M$ が次元とともに増大するにもかかわらずです。
相関 SQ アルゴリズムと完全 SQ アルゴリズムの両方に対して統計クエリ (SQ) 下限を確立することにより、この学習可能性の保証を計算強度の結果で補完します。

要約(オリジナル)

We study the computational and sample complexity of learning a target function $f_*:\mathbb{R}^d\to\mathbb{R}$ with additive structure, that is, $f_*(x) = \frac{1}{\sqrt{M}}\sum_{m=1}^M f_m(\langle x, v_m\rangle)$, where $f_1,f_2,…,f_M:\mathbb{R}\to\mathbb{R}$ are nonlinear link functions of single-index models (ridge functions) with diverse and near-orthogonal index features $\{v_m\}_{m=1}^M$, and the number of additive tasks $M$ grows with the dimensionality $M\asymp d^\gamma$ for $\gamma\ge 0$. This problem setting is motivated by the classical additive model literature, the recent representation learning theory of two-layer neural network, and large-scale pretraining where the model simultaneously acquires a large number of ‘skills’ that are often localized in distinct parts of the trained network. We prove that a large subset of polynomial $f_*$ can be efficiently learned by gradient descent training of a two-layer neural network, with a polynomial statistical and computational complexity that depends on the number of tasks $M$ and the information exponent of $f_m$, despite the unknown link function and $M$ growing with the dimensionality. We complement this learnability guarantee with computational hardness result by establishing statistical query (SQ) lower bounds for both the correlational SQ and full SQ algorithms.

arxiv情報

著者 Kazusato Oko,Yujin Song,Taiji Suzuki,Denny Wu
発行日 2024-06-17 17:59:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク