要約
忠実度はおそらく、説明可能な AI の信頼性を評価するための最も重要な指標です。
NLP では、忠実性を評価するための現在の方法には矛盾や偏見が多く、モデルの真の推論を捉えることができないことがよくあります。
モデルが敵対的攻撃を受けたときの説明者の応答に焦点を当て、忠実度評価への新しいアプローチとして敵対的感度を紹介します。
私たちの方法は、敵対的な入力の変化に対する敏感さを捉えることによって、説明者の忠実さを説明します。
この研究では、既存の評価手法の重大な制限に対処し、さらに、重要ではあるが十分に検討されていないパラダイムからの忠実性を定量化します。
要約(オリジナル)
Faithfulness is arguably the most critical metric to assess the reliability of explainable AI. In NLP, current methods for faithfulness evaluation are fraught with discrepancies and biases, often failing to capture the true reasoning of models. We introduce Adversarial Sensitivity as a novel approach to faithfulness evaluation, focusing on the explainer’s response when the model is under adversarial attack. Our method accounts for the faithfulness of explainers by capturing sensitivity to adversarial input changes. This work addresses significant limitations in existing evaluation techniques, and furthermore, quantifies faithfulness from a crucial yet underexplored paradigm.
arxiv情報
著者 | Supriya Manna,Niladri Sett |
発行日 | 2024-09-26 12:11:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google