Defining and Extracting generalizable interaction primitives from DNNs

要約

ディープ ニューラル ネットワーク (DNN) によってエンコードされた知識を、多くの情報を失わずにいくつかの象徴的なプリミティブ パターンに忠実に要約することは、説明可能な AI における中心的な課題です。
この目的のために、Ren ら。
(2024) は、DNN の推論スコアが入力変数間の相互作用の小さなセットとして説明できることを証明する一連の定理を導き出しました。
ただし、一般化能力が不足しているため、そのような相互作用を DNN によってエンコードされた忠実なプリミティブ パターンとみなすことは依然として困難です。
したがって、同じタスク用にトレーニングされた異なる DNN を考慮して、これらの DNN によって共有されるインタラクションを抽出する新しい方法を開発します。
実験により、抽出されたインタラクションは、さまざまな DNN によって共有される共通の知識をより適切に反映できることが示されています。

要約(オリジナル)

Faithfully summarizing the knowledge encoded by a deep neural network (DNN) into a few symbolic primitive patterns without losing much information represents a core challenge in explainable AI. To this end, Ren et al. (2024) have derived a series of theorems to prove that the inference score of a DNN can be explained as a small set of interactions between input variables. However, the lack of generalization power makes it still hard to consider such interactions as faithful primitive patterns encoded by the DNN. Therefore, given different DNNs trained for the same task, we develop a new method to extract interactions that are shared by these DNNs. Experiments show that the extracted interactions can better reflect common knowledge shared by different DNNs.

arxiv情報

著者 Lu Chen,Siyu Lou,Benhao Huang,Quanshi Zhang
発行日 2024-09-13 12:27:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク