要約
最近、一連の研究が、DNN によってモデル化された入力変数間の相互作用を抽出し、そのような相互作用を DNN によってエンコードされた概念として定義することを試みています。
ただし、厳密に言えば、そのような相互作用が実際に意味のある概念を表すかどうかについては、まだ確実な保証がありません。
そこで本論文では、インタラクション概念の信頼性を4つの観点から検証する。
広範な実証研究により、よく訓練された DNN は通常、人間の直観と部分的に一致する、まばらで伝達可能な識別的な概念をエンコードしていることが証明されています。
要約(オリジナル)
Recently, a series of studies have tried to extract interactions between input variables modeled by a DNN and define such interactions as concepts encoded by the DNN. However, strictly speaking, there still lacks a solid guarantee whether such interactions indeed represent meaningful concepts. Therefore, in this paper, we examine the trustworthiness of interaction concepts from four perspectives. Extensive empirical studies have verified that a well-trained DNN usually encodes sparse, transferable, and discriminative concepts, which is partially aligned with human intuition.
arxiv情報
著者 | Mingjie Li,Quanshi Zhang |
発行日 | 2024-09-13 15:38:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google