要約
30年間、統計力学はニューラルネットワークを分析するためのフレームワークを提供してきました。
ただし、理論的に扱いやすいモデル、例えば、パーセプトロン、ランダムな特徴モデル、カーネルマシン、またはニューロンの少ないマルチインデックスモデルと委員会マシンは、アプリケーションで使用されているモデルと比較して単純なままでした。
このペーパーでは、2層の完全に接続されたネットワークの監視された学習の統計的物理学的分析と、一般的な重量分布と活性化関数を使用することにより、実用的なネットワークとその理論的理解の間のギャップを減らすのに役立ちます。
これにより、機能学習が発生していないが、狭いものや固定内重量よりも表現力豊かで、無限に広いネットワークよりも現実的になります。
教師と学生のシナリオでのベイズ最適な学習、つまり、同じアーキテクチャを持つ別のネットワークによって生成されたデータセットを使用して焦点を当てています。
補間を中心に動作します。ここでは、トレーニング可能なパラメーターとデータの数が匹敵し、機能学習が出現します。
私たちの分析は、データの数が増えるにつれて、さまざまな学習移行を伴う豊富な現象学を明らかにします。
特に、特徴がより強く(つまり、ターゲットの隠されたニューロン)が観察された応答に貢献するほど、それらを学習するために必要なデータは少なくなります。
さらに、データが不足している場合、モデルは、重量を教師の重みと合わせて「専門化」するのではなく、教師の重みの非線形の組み合わせのみを学習します。
専門化は、十分なデータが利用可能になった場合にのみ発生しますが、おそらく統計的なコンパートルからコンパート化されたギャップのために、実用的なトレーニングアルゴリズムで見つけるのは難しい場合があります。
要約(オリジナル)
For three decades statistical mechanics has been providing a framework to analyse neural networks. However, the theoretically tractable models, e.g., perceptrons, random features models and kernel machines, or multi-index models and committee machines with few neurons, remained simple compared to those used in applications. In this paper we help reducing the gap between practical networks and their theoretical understanding through a statistical physics analysis of the supervised learning of a two-layer fully connected network with generic weight distribution and activation function, whose hidden layer is large but remains proportional to the inputs dimension. This makes it more realistic than infinitely wide networks where no feature learning occurs, but also more expressive than narrow ones or with fixed inner weights. We focus on the Bayes-optimal learning in the teacher-student scenario, i.e., with a dataset generated by another network with the same architecture. We operate around interpolation, where the number of trainable parameters and of data are comparable and feature learning emerges. Our analysis uncovers a rich phenomenology with various learning transitions as the number of data increases. In particular, the more strongly the features (i.e., hidden neurons of the target) contribute to the observed responses, the less data is needed to learn them. Moreover, when the data is scarce, the model only learns non-linear combinations of the teacher weights, rather than ‘specialising’ by aligning its weights with the teacher’s. Specialisation occurs only when enough data becomes available, but it can be hard to find for practical training algorithms, possibly due to statistical-to-computational~gaps.
arxiv情報
著者 | Jean Barbier,Francesco Camilli,Minh-Toan Nguyen,Mauro Pastore,Rudy Skerk |
発行日 | 2025-05-30 17:46:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google