The Effect of Similarity Measures on Accurate Stability Estimates for Local Surrogate Models in Text-based Explainable AI

要約

最近の研究では、機械学習 (ML) モデルの入力に対する敵対的な摂動に対するローカル代理手法の脆弱性が調査されました。この手法では、複雑なモデルの下で元の入力の意味と構造が類似したままで説明が操作されます。
多くの手法に弱点が存在することが示されていますが、その背後にある理由はほとんど調査されていません。
Explainable AI (XAI) に対する敵対的攻撃の概念の中心となるのは、ある説明が別の説明とどのように異なるかを計算するために使用される類似性の尺度です。
類似性尺度の選択を誤ると、XAI メソッドの有効性について誤った結論につながる可能性があります。
対策が敏感すぎると脆弱性が誇張されてしまい、大ざっぱすぎると脆弱性が過小評価されてしまいます。
私たちは、ケンダルのタウ、スピアマンのフットルール、ランクバイアスオーバーラップなど、テキストベースのランク付けリスト用に設計されたさまざまな類似性尺度を調査し、尺度の種類や成功のしきい値の大幅な変更が、一般的な敵対的攻撃プロセスから生成される結論にどのような影響を与えるかを判断します。

特定の測定値は感度が高すぎることが判明し、その結果、安定性の誤った推定が行われます。

要約(オリジナル)

Recent work has investigated the vulnerability of local surrogate methods to adversarial perturbations on a machine learning (ML) model’s inputs, where the explanation is manipulated while the meaning and structure of the original input remains similar under the complex model. Although weaknesses across many methods have been shown to exist, the reasons behind why remain little explored. Central to the concept of adversarial attacks on explainable AI (XAI) is the similarity measure used to calculate how one explanation differs from another. A poor choice of similarity measure can lead to erroneous conclusions on the efficacy of an XAI method. Too sensitive a measure results in exaggerated vulnerability, while too coarse understates its weakness. We investigate a variety of similarity measures designed for text-based ranked lists, including Kendall’s Tau, Spearman’s Footrule, and Rank-biased Overlap to determine how substantial changes in the type of measure or threshold of success affect the conclusions generated from common adversarial attack processes. Certain measures are found to be overly sensitive, resulting in erroneous estimates of stability.

arxiv情報

著者 Christopher Burger,Charles Walter,Thai Le
発行日 2025-01-17 16:49:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク