要約
機械学習モデルの信頼性と公平性を確保するには、機械学習モデルの意思決定プロセスを説明することが重要です。
一般的な説明形式の 1 つは、i) トークン (例: Shapley 値と統合勾配)、ii) トークン間の相互作用 (例: 二変量 Shapley とアテンションベースのメソッド)、または iii) 入力のスパン間の相互作用などの主要な入力機能に焦点を当てています。
(例:ルーヴァン・スパン相互作用)。
ただし、これらの説明タイプは単独でしか研究されていないため、それぞれの適用可能性を判断するのは困難です。
このギャップを埋めるために、ハイライトと 4 つの診断プロパティで構成されるインタラクティブな説明の直接比較を容易にする統一フレームワークを提案します。
2 つのデータセットと 2 つのモデルにわたる、これら 3 つのタイプの入力特徴の説明 (それぞれ 3 つの異なる説明手法を使用) にわたる広範な分析を通じて、各説明タイプがさまざまな診断特性の点で優れていることが明らかになりました。
私たちの実験では、ハイライト説明がモデルの予測に最も忠実であり、インタラクティブな説明はモデルの予測をシミュレートする学習に優れた有用性を提供します。
これらの洞察は、すべての診断特性を強化する組み合わせ方法を開発するための将来の研究の必要性をさらに強調しています。
要約(オリジナル)
Explaining the decision-making process of machine learning models is crucial for ensuring their reliability and fairness. One popular explanation form highlights key input features, such as i) tokens (e.g., Shapley Values and Integrated Gradients), ii) interactions between tokens (e.g., Bivariate Shapley and Attention-based methods), or iii) interactions between spans of the input (e.g., Louvain Span Interactions). However, these explanation types have only been studied in isolation, making it difficult to judge their respective applicability. To bridge this gap, we propose a unified framework that facilitates a direct comparison between highlight and interactive explanations comprised of four diagnostic properties. Through extensive analysis across these three types of input feature explanations–each utilizing three different explanation techniques–across two datasets and two models, we reveal that each explanation type excels in terms of different diagnostic properties. In our experiments, highlight explanations are the most faithful to a model’s prediction, and interactive explanations provide better utility for learning to simulate a model’s predictions. These insights further highlight the need for future research to develop combined methods that enhance all diagnostic properties.
arxiv情報
| 著者 | Jingyi Sun,Pepa Atanasova,Isabelle Augenstein | 
| 発行日 | 2024-06-21 12:01:03+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
