Towards Compositional Interpretability for XAI

要約

現在、人工知能 (AI) は主に、解釈可能性に欠けるブラックボックスの機械学習モデルに基づいています。
eXplainable AI (XAI) の分野は、金融、法律、医療分野などの一か八かの分野で重要なこの大きな懸念に対処しようと努めています。
AI モデルとその解釈可能性をカテゴリ理論に基づいて定義するアプローチを紹介します。
このために、私たちは構成モデルの概念を採用します。これは、モデルをその具体的な実装とともにその抽象構造を捉える形式的な文字列図の観点から見るものです。
この包括的なビューには、決定論的、確率的、および量子モデルが組み込まれています。
線形モデルとルールベース モデル、(リカレント) ニューラル ネットワーク、トランスフォーマー、VAE、因果モデルと DisCoCirc モデルを含む、幅広い AI モデルを構成モデルとして比較します。
次に、構成構造の観点からモデルの解釈の定義を示し、モデルの解釈可能性を分析する方法を示し、これを使用して XAI の共通テーマを明確にします。
標準的な「本質的に解釈可能な」モデルを非常に透明にするものは、図的に最も明確に表されることがわかります。
これにより、構成的に解釈可能な (CI) モデルというより一般的な概念が得られます。これには、たとえば、因果モデル、概念空間モデル、DisCoCirc モデルなども含まれます。
次に、CI モデルの説明可能性の利点を示します。
第一に、それらの組成構造により、他の関心のある量の計算が可能になる可能性があり、その構造を一致させることで、モデルからモデル化された現象への推論が容易になる可能性があります。
第二に、影響制約に基づいて、動作を図式的に説明したり、図表を作成したり、説明を書き換えたりすることができます。
最後に、このアプローチの将来の多くの方向性について議論し、そのような有意義に構造化されたモデルを実際にどのように学習するかという問題を提起します。

要約(オリジナル)

Artificial intelligence (AI) is currently based largely on black-box machine learning models which lack interpretability. The field of eXplainable AI (XAI) strives to address this major concern, being critical in high-stakes areas such as the finance, legal and health sectors. We present an approach to defining AI models and their interpretability based on category theory. For this we employ the notion of a compositional model, which sees a model in terms of formal string diagrams which capture its abstract structure together with its concrete implementation. This comprehensive view incorporates deterministic, probabilistic and quantum models. We compare a wide range of AI models as compositional models, including linear and rule-based models, (recurrent) neural networks, transformers, VAEs, and causal and DisCoCirc models. Next we give a definition of interpretation of a model in terms of its compositional structure, demonstrating how to analyse the interpretability of a model, and using this to clarify common themes in XAI. We find that what makes the standard ‘intrinsically interpretable’ models so transparent is brought out most clearly diagrammatically. This leads us to the more general notion of compositionally-interpretable (CI) models, which additionally include, for instance, causal, conceptual space, and DisCoCirc models. We next demonstrate the explainability benefits of CI models. Firstly, their compositional structure may allow the computation of other quantities of interest, and may facilitate inference from the model to the modelled phenomenon by matching its structure. Secondly, they allow for diagrammatic explanations for their behaviour, based on influence constraints, diagram surgery and rewrite explanations. Finally, we discuss many future directions for the approach, raising the question of how to learn such meaningfully structured models in practice.

arxiv情報

著者 Sean Tull,Robin Lorenz,Stephen Clark,Ilyas Khan,Bob Coecke
発行日 2024-06-25 14:27:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.LO, math.CT パーマリンク