An Analysis Framework for Understanding Deep Neural Networks Based on Network Dynamics

要約

人工知能を進めるには、深い学習の根底にあるメカニズムのより深い理解が必要です。
ここでは、学習モデルのダイナミクスに基づいて、簡単な分析フレームワークを提案します。
ニューロンは、変換関数が順序を維持するかどうかに基づいて、2つのモードに分類されます。
この分類により、深いニューラルネットワーク(DNNS)が、ディープレイヤー全体で異なるモードのニューロンの割合を合理的に割り当てることにより、情報抽出を最大化する方法を明らかにします。
さらに、DNNSの一般化能力を特徴付けるために、サンプルベクトル空間と重量ベクトル空間の両方にトレーニングサンプルのアトラクション盆地を紹介します。
このフレームワークにより、最適な深さと幅の構成を特定し、「フラットミニマー効果」、「グローキング」、二重降下現象などの基本的なDNN行動の統一された説明を提供できます。
分析は、最大100層の深さのネットワークに拡張されます。

要約(オリジナル)

Advancing artificial intelligence demands a deeper understanding of the mechanisms underlying deep learning. Here, we propose a straightforward analysis framework based on the dynamics of learning models. Neurons are categorized into two modes based on whether their transformation functions preserve order. This categorization reveals how deep neural networks (DNNs) maximize information extraction by rationally allocating the proportion of neurons in different modes across deep layers. We further introduce the attraction basins of the training samples in both the sample vector space and the weight vector space to characterize the generalization ability of DNNs. This framework allows us to identify optimal depth and width configurations, providing a unified explanation for fundamental DNN behaviors such as the ‘flat minima effect,’ ‘grokking,’ and double descent phenomena. Our analysis extends to networks with depths up to 100 layers.

arxiv情報

著者 Yuchen Lin,Yong Zhang,Sihan Feng,Hong Zhao
発行日 2025-03-06 15:49:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, nlin.CD, stat.ML パーマリンク