Defining and Quantifying the Emergence of Sparse Concepts in DNNs

要約

タイトル:DNNにおけるスパースな概念の出現の定義と量子化

要約:
– この論文は、トレーニングされたDNNにおける概念出現現象を説明することを目的としています。
– 具体的には、DNNの推論スコアが、いくつかのインタラクティブな概念の影響に分解できることがわかりました。
– これらの概念は、DNNを説明する疎な記号因果グラフの中の因果パターンとして理解できます。
– この因果グラフを使用してDNNを説明することの正確性は、数え切れないほどの異なるマスクされたサンプルにおいてDNNの出力をよく模倣できることを証明することで理論的に保証されています。
– また、この因果グラフは簡略化され、And-Orグラフ(AOG)として書き直すことができます。これにより、説明の正確性をほとんど失うことなく、より簡潔な表現が可能になります。

要約(オリジナル)

This paper aims to illustrate the concept-emerging phenomenon in a trained DNN. Specifically, we find that the inference score of a DNN can be disentangled into the effects of a few interactive concepts. These concepts can be understood as causal patterns in a sparse, symbolic causal graph, which explains the DNN. The faithfulness of using such a causal graph to explain the DNN is theoretically guaranteed, because we prove that the causal graph can well mimic the DNN’s outputs on an exponential number of different masked samples. Besides, such a causal graph can be further simplified and re-written as an And-Or graph (AOG), without losing much explanation accuracy.

arxiv情報

著者 Jie Ren,Mingjie Li,Qirui Chen,Huiqi Deng,Quanshi Zhang
発行日 2023-04-03 12:02:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク