要約
近年、深層学習理論では、複数層のガウス ランダム特徴を備えたモデルの一般化パフォーマンスの分析に大きな注目が集まっています。
ただし、機能の異方性の影響を考慮した研究はほとんどありません。
ほとんどの場合、特徴は独立した同一分布のガウス重みを使用して生成されると想定しています。
ここでは、構造化されたガウス特徴の多くの層を持つモデルの学習曲線を導き出します。
機能の最初のレイヤーの行間の相関を許可すると、一般化に役立ちますが、後のレイヤーの構造は一般的に有害であることを示します。
私たちの結果は、重み構造が解決可能なモデルの単純なクラスの一般化にどのように影響するかを明らかにします。
要約(オリジナル)
In recent years, significant attention in deep learning theory has been devoted to analyzing the generalization performance of models with multiple layers of Gaussian random features. However, few works have considered the effect of feature anisotropy; most assume that features are generated using independent and identically distributed Gaussian weights. Here, we derive learning curves for models with many layers of structured Gaussian features. We show that allowing correlations between the rows of the first layer of features can aid generalization, while structure in later layers is generally detrimental. Our results shed light on how weight structure affects generalization in a simple class of solvable models.
arxiv情報
著者 | Jacob A. Zavatone-Veth,Cengiz Pehlevan |
発行日 | 2023-03-01 15:11:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google