The Computational Advantage of Depth: Learning High-Dimensional Hierarchical Functions with Gradient Descent

要約

浅いモデルと比較して勾配降下(GD)によって訓練された深いニューラルネットワークの利点を理解することは、未解決の理論的課題です。
高次元のガウスデータを使用したマルチインデックスモデルの研究により、カーネルに対するGDトレーニングを受けたニューラルネットワークの利点に関する分析的な洞察が提供されていますが、GDトレーニングネットワークのサンプルの複雑さと一般化における深さを改善する上での役割はまだ理解されていません。
このホワイトペーパーでは、潜在的な部分空間寸法の階層を組み込んだターゲット関数のクラス(単一およびマルチインデックスガウス階層ターゲット)を紹介します。
このフレームワークにより、高次元の制限の浅いネットワークと比較して、深いネットワークの学習ダイナミクスと一般化パフォーマンスを分析的に研究することができます。
具体的には、私たちの主な定理は、GDを使用した特徴学習が効果的な次元を減らし、高次元の問題を低次元の問題に変換することを示しています。
これにより、浅いネットワークよりも劇的に少ないサンプルでターゲット関数を学習することができます。
結果は制御されたトレーニング設定で証明されていますが、より一般的なトレーニング手順についても議論し、同じメカニズムを通じて学習すると主張します。
これらの発見は、深いネットワークで階層構造を学習する際の深さの重要な役割のさらなる定量的研究への道を開きます。

要約(オリジナル)

Understanding the advantages of deep neural networks trained by gradient descent (GD) compared to shallow models remains an open theoretical challenge. While the study of multi-index models with Gaussian data in high dimensions has provided analytical insights into the benefits of GD-trained neural networks over kernels, the role of depth in improving sample complexity and generalization in GD-trained networks remains poorly understood. In this paper, we introduce a class of target functions (single and multi-index Gaussian hierarchical targets) that incorporate a hierarchy of latent subspace dimensionalities. This framework enables us to analytically study the learning dynamics and generalization performance of deep networks compared to shallow ones in the high-dimensional limit. Specifically, our main theorem shows that feature learning with GD reduces the effective dimensionality, transforming a high-dimensional problem into a sequence of lower-dimensional ones. This enables learning the target function with drastically less samples than with shallow networks. While the results are proven in a controlled training setting, we also discuss more common training procedures and argue that they learn through the same mechanisms. These findings open the way to further quantitative studies of the crucial role of depth in learning hierarchical structures with deep networks.

arxiv情報

著者 Yatin Dandi,Luca Pesce,Lenka Zdeborová,Florent Krzakala
発行日 2025-02-19 18:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク