Interpretability is in the Mind of the Beholder: A Causal Framework for Human-interpretable Representation Learning

要約

Explainable AI における焦点は、入力特徴などの低レベルの要素の観点から定義された説明から、データから学習された解釈可能な概念の観点からエンコードされた説明に移りつつあります。
しかし、そのような概念を確実に取得する方法は依然として根本的に不明です。
概念の解釈可能性についての合意された概念が欠落しており、その結果、事後説明器と概念ベースのニューラル ネットワークの両方で使用される概念は、相互に互換性のないさまざまな戦略を通じて取得されます。
重要なことに、これらのほとんどは問題の人間的な側面を無視しています。表現は、受信側の人間が理解できる限りにおいてのみ理解可能です。
人間が解釈可能な表現学習 (HRL) における主な課題は、この人間の要素をどのようにモデル化して運用できるかということです。
この研究では、事後説明者と概念ベースのニューラル ネットワークの両方に適した解釈可能な表現を取得するための数学的フレームワークを提案します。
私たちの HRL の形式化は、因果表現学習における最近の進歩に基づいており、人間の利害関係者を外部観察者として明示的にモデル化します。
これにより、機械表現と人間が理解する概念の語彙との間の整合に関する原則的な概念を導き出すことができます。
そうすることで、シンプルで直感的な名前変換ゲームを通じて整合性と解釈可能性を結び付け、整合性と表現のよく知られた特性、つまりもつれの解除との関係を明確にします。
また、これらの特性の一般的な情報理論的再定式化を通じて、整合が概念間の望ましくない相関の問題 (概念漏洩とも呼ばれる) とコンテンツ スタイルの分離に関連していることも示します。
私たちの概念化は、解釈可能性における人間側とアルゴリズム側のギャップを埋め、人間が解釈可能な表現に関する新しい研究への足がかりを確立することを目的としています。

要約(オリジナル)

Focus in Explainable AI is shifting from explanations defined in terms of low-level elements, such as input features, to explanations encoded in terms of interpretable concepts learned from data. How to reliably acquire such concepts is, however, still fundamentally unclear. An agreed-upon notion of concept interpretability is missing, with the result that concepts used by both post-hoc explainers and concept-based neural networks are acquired through a variety of mutually incompatible strategies. Critically, most of these neglect the human side of the problem: a representation is understandable only insofar as it can be understood by the human at the receiving end. The key challenge in Human-interpretable Representation Learning (HRL) is how to model and operationalize this human element. In this work, we propose a mathematical framework for acquiring interpretable representations suitable for both post-hoc explainers and concept-based neural networks. Our formalization of HRL builds on recent advances in causal representation learning and explicitly models a human stakeholder as an external observer. This allows us to derive a principled notion of alignment between the machine representation and the vocabulary of concepts understood by the human. In doing so, we link alignment and interpretability through a simple and intuitive name transfer game, and clarify the relationship between alignment and a well-known property of representations, namely disentanglment. We also show that alignment is linked to the issue of undesirable correlations among concepts, also known as concept leakage, and to content-style separation, all through a general information-theoretic reformulation of these properties. Our conceptualization aims to bridge the gap between the human and algorithmic sides of interpretability and establish a stepping stone for new research on human-interpretable representations.

arxiv情報

著者 Emanuele Marconato,Andrea Passerini,Stefano Teso
発行日 2023-09-14 14:26:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG パーマリンク