要約
この論文では、ディープニューラルネットワーク(DNN)によってエンコードされた相互作用の複雑さは、その一般化力を説明できることがわかります。
また、非一般化できない相互作用で表されるDNNの混乱したサンプルは、その低層パラメーターによって決定されることも発見します。
それに比べて、高層パラメーターやネットワークアーキテクチャなどの他の要因は、混乱するサンプルの組成にはあまり影響を与えません。
異なる低層パラメーターを持つ2つのDNNは、通常、類似のパフォーマンスを持っているにもかかわらず、完全に異なる混乱サンプルセットを持っています。
この発見は、宝くじのチケット仮説の理解を広げ、異なるDNNの特徴的な表現力をよく説明しています。
要約(オリジナル)
In this paper, we find that the complexity of interactions encoded by a deep neural network (DNN) can explain its generalization power. We also discover that the confusing samples of a DNN, which are represented by non-generalizable interactions, are determined by its low-layer parameters. In comparison, other factors, such as high-layer parameters and network architecture, have much less impact on the composition of confusing samples. Two DNNs with different low-layer parameters usually have fully different sets of confusing samples, even though they have similar performance. This finding extends the understanding of the lottery ticket hypothesis, and well explains distinctive representation power of different DNNs.
arxiv情報
著者 | Junpeng Zhang,Lei Cheng,Qing Li,Liang Lin,Quanshi Zhang |
発行日 | 2025-02-12 18:25:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google