要約
事後説明可能性手法は、ブラックボックス機械学習モデルの予測を明確にすることを目的としています。
ただし、提供された説明をユーザーがどの程度理解しているのか、また、これらの説明によってモデルの動作を予測するユーザーの能力が向上するのかどうかは、まだほとんど不明です。
私たちは、広く使用されている 2 つのツール、LIME と SHAP の理解可能性と予測可能性を評価するユーザー調査を実施することで、この質問にアプローチします。
さらに、モデルの動作を理解して予測するユーザーの能力に対する反事実の説明と誤分類の影響を調査します。
モデルの決定境界に近いサンプルに説明が提供されると、SHAP の理解度が大幅に低下することがわかりました。
さらに、事実に反する説明や誤分類によって、機械学習モデルがどのように意思決定を行っているかについてのユーザーの理解が大幅に高まる可能性があることがわかりました。
私たちの調査結果に基づいて、理解性と予測可能性を高めた将来の事後説明可能性手法のための設計推奨事項も導き出します。
要約(オリジナル)
Post-hoc explainability methods aim to clarify predictions of black-box machine learning models. However, it is still largely unclear how well users comprehend the provided explanations and whether these increase the users ability to predict the model behavior. We approach this question by conducting a user study to evaluate comprehensibility and predictability in two widely used tools: LIME and SHAP. Moreover, we investigate the effect of counterfactual explanations and misclassifications on users ability to understand and predict the model behavior. We find that the comprehensibility of SHAP is significantly reduced when explanations are provided for samples near a model’s decision boundary. Furthermore, we find that counterfactual explanations and misclassifications can significantly increase the users understanding of how a machine learning model is making decisions. Based on our findings, we also derive design recommendations for future post-hoc explainability methods with increased comprehensibility and predictability.
arxiv情報
著者 | Anahid Jalali,Bernhard Haslhofer,Simone Kriglstein,Andreas Rauber |
発行日 | 2023-09-21 11:54:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google