Understanding Post-hoc Explainers: The Case of Anchors

要約

多くのシナリオでは、機械学習モデルの解釈可能性は非常に必要ですが、難しいタスクです。
このようなモデルの個々の予測を説明するために、ローカル モデルに依存しないアプローチが提案されています。
しかし、説明を生成するプロセスは、ユーザーにとって、説明される予測と同じくらい不可解である可能性があります。
さらに、解釈可能性の方法には理論的な保証が欠けていることが多く、単純なモデルでのその動作は不明なことがよくあります。
不可能ではないにしても、説明者が最先端のモデルで期待どおりに動作することを保証することは困難ですが、少なくとも、単純で既に解釈可能なモデルですべてが機能することを保証できます。
この論文では、アンカーの理論的分析 (Ribeiro et al., 2018) を提示します。これは、テキスト分類器の決定を説明するために単語の小さなセットを強調する、一般的なルールベースの解釈可能性手法です。
アルゴリズムを形式化し、有用な洞察を提供した後、TF-IDF ベクトル化の上で線形テキスト分類器を使用すると、アンカーが意味のある結果を生成することを数学的に示します。
私たちの分析フレームワークは、確固たる理論的基盤に基づいた新しい説明可能性の方法の開発に役立つと信じています。

要約(オリジナル)

In many scenarios, the interpretability of machine learning models is a highly required but difficult task. To explain the individual predictions of such models, local model-agnostic approaches have been proposed. However, the process generating the explanations can be, for a user, as mysterious as the prediction to be explained. Furthermore, interpretability methods frequently lack theoretical guarantees, and their behavior on simple models is frequently unknown. While it is difficult, if not impossible, to ensure that an explainer behaves as expected on a cutting-edge model, we can at least ensure that everything works on simple, already interpretable models. In this paper, we present a theoretical analysis of Anchors (Ribeiro et al., 2018): a popular rule-based interpretability method that highlights a small set of words to explain a text classifier’s decision. After formalizing its algorithm and providing useful insights, we demonstrate mathematically that Anchors produces meaningful results when used with linear text classifiers on top of a TF-IDF vectorization. We believe that our analysis framework can aid in the development of new explainability methods based on solid theoretical foundations.

arxiv情報

著者 Gianluigi Lopardo,Frederic Precioso,Damien Garreau
発行日 2023-03-15 17:56:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク