Faithful and Robust Local Interpretability for Textual Predictions

要約

機械学習モデルが信頼され、重要なドメインに導入されるためには、解釈可能性が不可欠です。
ただし、テキスト モデルを解釈するための既存の方法は多くの場合複雑で、数学的基礎が欠如しており、そのパフォーマンスは保証されていません。
この論文では、テキスト上の予測を解釈するための新しい方法である FRED (Faithful and Robust Explainer for textual Documents) を提案します。
FRED は、モデル予測を説明するための 3 つの重要な洞察を提供します。(1) 削除が予測に最も強い影響を与える文書内の最小の単語セットを特定します。(2) 各トークンに重要度スコアを割り当て、その影響を反映します。
(3) 元の文書に似ているが、異なる予測につながる例を生成することで、反事実的な説明を提供します。
私たちは、解釈可能な分類子の正式な定義と理論的分析を通じて、FRED の信頼性を確立します。
さらに、最先端の手法に対する当社の実証的評価は、テキスト モデルへの洞察を提供する際の FRED の有効性を実証しています。

要約(オリジナル)

Interpretability is essential for machine learning models to be trusted and deployed in critical domains. However, existing methods for interpreting text models are often complex, lack mathematical foundations, and their performance is not guaranteed. In this paper, we propose FRED (Faithful and Robust Explainer for textual Documents), a novel method for interpreting predictions over text. FRED offers three key insights to explain a model prediction: (1) it identifies the minimal set of words in a document whose removal has the strongest influence on the prediction, (2) it assigns an importance score to each token, reflecting its influence on the model’s output, and (3) it provides counterfactual explanations by generating examples similar to the original document, but leading to a different prediction. We establish the reliability of FRED through formal definitions and theoretical analyses on interpretable classifiers. Additionally, our empirical evaluation against state-of-the-art methods demonstrates the effectiveness of FRED in providing insights into text models.

arxiv情報

著者 Gianluigi Lopardo,Frederic Precioso,Damien Garreau
発行日 2024-04-08 15:35:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク