Interpretability Guarantees with Merlin-Arthur Classifiers

要約

ニューラルネットワークなどの複雑なエージェントに対しても証明可能な解釈可能性を保証する対話型マルチエージェント分類器を提案します。
これらの保証は、選択された特徴と分類決定の間の相互情報の下限で構成されます。
私たちの結果は、Interactive Proof Systems の Merlin-Arthur プロトコルに触発されており、健全性や完全性などの測定可能な指標の観点からこれらの境界を表現しています。
既存の対話型セットアップと比較して、最適なエージェントにも依存せず、機能が独立して配布されるという前提にも依存しません。
代わりに、エージェントの相対的な強度と、解釈可能性の保証を困難にする正確な種類の相関を捕捉する非対称特徴相関の新しい概念を使用します。
高い相互情報量を明示的に検証できる 2 つの小規模データセットで結果を評価します。

要約(オリジナル)

We propose an interactive multi-agent classifier that provides provable interpretability guarantees even for complex agents such as neural networks. These guarantees consist of lower bounds on the mutual information between selected features and the classification decision. Our results are inspired by the Merlin-Arthur protocol from Interactive Proof Systems and express these bounds in terms of measurable metrics such as soundness and completeness. Compared to existing interactive setups, we rely neither on optimal agents nor on the assumption that features are distributed independently. Instead, we use the relative strength of the agents as well as the new concept of Asymmetric Feature Correlation which captures the precise kind of correlations that make interpretability guarantees difficult. We evaluate our results on two small-scale datasets where high mutual information can be verified explicitly.

arxiv情報

著者 Stephan Wäldchen,Kartikey Sharma,Berkant Turan,Max Zimmer,Sebastian Pokutta
発行日 2024-03-22 14:13:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, 91A06, cs.AI, cs.LG, I.2.0 パーマリンク