要約
近年、DNNによってモデル化された入力変数間の相互作用を抽出し、そのような相互作用をDNNによって符号化された概念として定義しようとする研究が相次いでいる。しかし、厳密に言えば、そのような相互作用が本当に意味のある概念を表しているかどうか、確かな保証はまだない。そこで本稿では、相互作用概念の信頼性を4つの観点から検証する。よく訓練されたDNNは通常、疎な、伝達可能な、識別可能な概念を符号化することが、広範な経験的研究によって検証されており、これは人間の直感と部分的に一致している。
要約(オリジナル)
Recently, a series of studies have tried to extract interactions between input variables modeled by a DNN and define such interactions as concepts encoded by the DNN. However, strictly speaking, there still lacks a solid guarantee whether such interactions indeed represent meaningful concepts. Therefore, in this paper, we examine the trustworthiness of interaction concepts from four perspectives. Extensive empirical studies have verified that a well-trained DNN usually encodes sparse, transferable, and discriminative concepts, which is partially aligned with human intuition.
arxiv情報
著者 | Mingjie Li,Quanshi Zhang |
発行日 | 2023-12-01 15:18:18+00:00 |
arxivサイト | arxiv_id(pdf) |