A Theoretical Framework for AI Models Explainability

要約

説明可能性は、人工知能コミュニティの活発な研究トピックであり、方法やドメイン全体で関心が高まっています。
このトピックについては多くのことが書かれていますが、説明可能性にはまだ共通の用語や、説明に構造的な健全性を提供できるフレームワークがありません。
私たちの仕事では、文献に見られるものの統合である説明の新しい定義を提案することにより、これらの問題に対処します。
説明は原子的なものではなく、モデルとその入出力、およびこの証拠の人間による解釈に由来する証拠の産物であることを認識しています。
さらに、説明を忠実度 (つまり、説明がモデルの意思決定の真の説明である) と妥当性 (つまり、説明がユーザーにとってどれだけ説得力があるように見えるか) の特性に当てはめます。
提案された理論的フレームワークを使用すると、これらのプロパティを合理化する方法が簡素化され、ケーススタディとして分析する一般的な説明方法に新しい洞察が得られます。

要約(オリジナル)

Explainability is a vibrant research topic in the artificial intelligence community, with growing interest across methods and domains. Much has been written about the topic, yet explainability still lacks shared terminology and a framework capable of providing structural soundness to explanations. In our work, we address these issues by proposing a novel definition of explanation that is a synthesis of what can be found in the literature. We recognize that explanations are not atomic but the product of evidence stemming from the model and its input-output and the human interpretation of this evidence. Furthermore, we fit explanations into the properties of faithfulness (i.e., the explanation being a true description of the model’s decision-making) and plausibility (i.e., how much the explanation looks convincing to the user). Using our proposed theoretical framework simplifies how these properties are ope rationalized and provide new insight into common explanation methods that we analyze as case studies.

arxiv情報

著者 Matteo Rizzo,Alberto Veneri,Andrea Albarelli,Claudio Lucchese,Cristina Conati
発行日 2022-12-29 20:05:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク