要約
この論文では、ディープ ニューラル ネットワーク (DNN) の一般化能力をインタラクションの観点から説明します。
DNN によってエンコードされる概念について広く受け入れられている定義はありませんが、DNN における相互作用の希薄性は証明されています。つまり、DNN の出力スコアは、入力変数間の少数の相互作用によって十分に説明できます。
このようにして、ある程度、そのようなインタラクションを DNN によってエンコードされたインタラクティブな概念として考えることができます。
したがって、この論文では、さまざまな複雑さの概念の不一致について分析的な説明を導き出します。
これにより、概念の一般化力を使用して DNN 全体の一般化力を説明できる可能性があります。
さらに、一般化能力が強い DNN は、通常、単純な概念をより迅速に学習し、エンコードする複雑な概念が少ないことがわかりました。
また、複雑な概念を学習する際の迂回路のダイナミクスも発見しました。これにより、複雑な概念の学習難易度の高さと一般化能力の低さの両方が説明されます。
論文が受理されるとコードが公開されます。
要約(オリジナル)
This paper explains the generalization power of a deep neural network (DNN) from the perspective of interactions. Although there is no universally accepted definition of the concepts encoded by a DNN, the sparsity of interactions in a DNN has been proved, i.e., the output score of a DNN can be well explained by a small number of interactions between input variables. In this way, to some extent, we can consider such interactions as interactive concepts encoded by the DNN. Therefore, in this paper, we derive an analytic explanation of inconsistency of concepts of different complexities. This may shed new lights on using the generalization power of concepts to explain the generalization power of the entire DNN. Besides, we discover that the DNN with stronger generalization power usually learns simple concepts more quickly and encodes fewer complex concepts. We also discover the detouring dynamics of learning complex concepts, which explains both the high learning difficulty and the low generalization power of complex concepts. The code will be released when the paper is accepted.
arxiv情報
著者 | Huilin Zhou,Hao Zhang,Huiqi Deng,Dongrui Liu,Wen Shen,Shih-Han Chan,Quanshi Zhang |
発行日 | 2024-09-13 09:19:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google