要約
近年、深層学習理論では、複数の層のガウスランダム特徴を備えたモデルの汎化パフォーマンスの分析に大きな注目が集まっています。
しかし、特徴の異方性の影響を考慮した研究はほとんどありません。
ほとんどの場合、特徴は独立した同一分布のガウス重みを使用して生成されると想定されています。
ここでは、構造化されたガウス特徴の多くの層を含むモデルの学習曲線を導き出します。
特徴の最初の層の行間の相関関係を許可すると一般化に役立つが、その後の層の構造は一般に有害であることを示します。
私たちの結果は、可溶モデルの単純なクラスにおける重み構造が一般化にどのような影響を与えるかを明らかにします。
要約(オリジナル)
In recent years, significant attention in deep learning theory has been devoted to analyzing the generalization performance of models with multiple layers of Gaussian random features. However, few works have considered the effect of feature anisotropy; most assume that features are generated using independent and identically distributed Gaussian weights. Here, we derive learning curves for models with many layers of structured Gaussian features. We show that allowing correlations between the rows of the first layer of features can aid generalization, while structure in later layers is generally detrimental. Our results shed light on how weight structure affects generalization in a simple class of solvable models.
arxiv情報
著者 | Jacob A. Zavatone-Veth,Cengiz Pehlevan |
発行日 | 2023-05-17 17:26:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google