Hard to Explain: On the Computational Hardness of In-Distribution Model Interpretation

要約

機械学習 (ML) モデルを解釈する能力はますます重要になってきています。
しかし、この分野では大きな進歩があったにもかかわらず、さまざまなモデルの固有の解釈可能性に関する厳密な特性評価が依然として不足しています。
このギャップを埋める試みとして、最近の研究では、さまざまなモデルの決定を説明する計算の複雑さを研究することで、解釈可能性を正式に評価できることが実証されました。
この設定では、特定のモデルの説明が効率的に得られる場合、そのモデルは解釈可能であると見なされます (「簡単に」説明できるため)。
ただし、ML モデルに対する説明の生成が計算的に困難な場合は、解釈不可能とみなされます。
以前の研究では、ML モデルの解釈の複雑さに影響を与える 2 つの重要な要素が特定されました。(i) モデルのタイプ (ニューラル ネットワーク、デシジョン ツリーなど)。
(ii) 説明の形式 (例: 対照的な説明、シャプレーの価値観など)。
この研究では、この分析では 3 番目の重要な要素、つまり説明が得られる基礎となる分布も考慮する必要があると主張します。
根底にある分布を考慮することは、社会的に不整合な説明、つまり、偏った情報やユーザーにとって役に立たない情報を伝えることを避けるための鍵となります。
我々は、結果として生じる全体的な解釈の複雑さに対する基礎となる分布の重大な影響を、次の 2 つの設定で実証します。(i) 外部の分布外 (OOD) 検出器と組み合わせた予測モデル。
(ii) 本質的に社会的に整合した説明を生成するように設計された予測モデル。
私たちの調査結果は、分布の表現力が解釈の全体的な複雑さに大きな影響を与える可能性があることを証明し、社会的に整合した説明を生成するためにモデルが備えなければならない重要な前提条件を特定します。

要約(オリジナル)

The ability to interpret Machine Learning (ML) models is becoming increasingly essential. However, despite significant progress in the field, there remains a lack of rigorous characterization regarding the innate interpretability of different models. In an attempt to bridge this gap, recent work has demonstrated that it is possible to formally assess interpretability by studying the computational complexity of explaining the decisions of various models. In this setting, if explanations for a particular model can be obtained efficiently, the model is considered interpretable (since it can be explained “easily”). However, if generating explanations over an ML model is computationally intractable, it is considered uninterpretable. Prior research identified two key factors that influence the complexity of interpreting an ML model: (i) the type of the model (e.g., neural networks, decision trees, etc.); and (ii) the form of explanation (e.g., contrastive explanations, Shapley values, etc.). In this work, we claim that a third, important factor must also be considered for this analysis — the underlying distribution over which the explanation is obtained. Considering the underlying distribution is key in avoiding explanations that are socially misaligned, i.e., convey information that is biased and unhelpful to users. We demonstrate the significant influence of the underlying distribution on the resulting overall interpretation complexity, in two settings: (i) prediction models paired with an external out-of-distribution (OOD) detector; and (ii) prediction models designed to inherently generate socially aligned explanations. Our findings prove that the expressiveness of the distribution can significantly influence the overall complexity of interpretation, and identify essential prerequisites that a model must possess to generate socially aligned explanations.

arxiv情報

著者 Guy Amir,Shahaf Bassan,Guy Katz
発行日 2024-08-07 17:20:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CC, cs.LG, cs.LO パーマリンク