要約
このペーパーでは、ディープニューラルネットワーク(DNNS)の一般化力を分析するための新しい視点を提案します。つまり、トレーニングプロセスを通じてDNNによってエンコードされた一般化可能であり、一般化できない相互作用のダイナミクスを直接解き放ち、分析します。
具体的には、この作業は、説明可能なAIにおける最近の理論的成果に基づいています。これは、DNNの詳細な推論ロジックが少数の相互作用パターンとして厳密に書き直される可能性があることを証明しています。
これに基づいて、各相互作用の一般化力を定量化する効率的な方法を提案し、トレーニング中の相互作用の一般化パワーの明確な3フェーズダイナミクスを発見します。
特に、トレーニングの初期段階では、通常、ノイズが多く、一般化できない相互作用を除去し、シンプルで一般化可能な相互作用を学習します。
2番目と3番目のフェーズは、一般化が難しいますます複雑な相互作用をキャプチャする傾向があります。
実験結果では、非一般化できない相互作用の学習が、トレーニングとテストの損失の間のギャップの直接的な原因であることを確認します。
要約(オリジナル)
This paper proposes a new perspective for analyzing the generalization power of deep neural networks (DNNs), i.e., directly disentangling and analyzing the dynamics of generalizable and non-generalizable interaction encoded by a DNN through the training process. Specifically, this work builds upon the recent theoretical achievement in explainble AI, which proves that the detailed inference logic of DNNs can be can be strictly rewritten as a small number of AND-OR interaction patterns. Based on this, we propose an efficient method to quantify the generalization power of each interaction, and we discover a distinct three-phase dynamics of the generalization power of interactions during training. In particular, the early phase of training typically removes noisy and non-generalizable interactions and learns simple and generalizable ones. The second and the third phases tend to capture increasingly complex interactions that are harder to generalize. Experimental results verify that the learning of non-generalizable interactions is the the direct cause for the gap between the training and testing losses.
arxiv情報
著者 | Yuxuan He,Junpeng Zhang,Lei Cheng,Hongyuan Zhang,Quanshi Zhang |
発行日 | 2025-05-20 15:25:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google