Faithful to Whom? Questioning Interpretability Measures in NLP

要約

モデルの解釈可能性を定量化する一般的なアプローチは、入力トークンを繰り返しマスキングし、その結果として予測ラベルがどの程度変化するかを測定することに基づいて忠実性メトリクスを計算することです。
ただし、マスクされた入力に対する応答は非常にモデル固有であるため、このようなメトリクスは一般に、さまざまなニューラル テキスト分類器の解釈可能性を比較するのには適していないことを示します。
反復マスキングにより、比較可能なモデル間で忠実度スコアに大きなばらつきが生じる可能性があることを実証し、マスクされたサンプルがトレーニング中に見られる分布から外れることが多いことを示します。
我々は、敵対的攻撃と敵対的トレーニングが忠実度スコアに及ぼす影響をさらに調査し、テキスト敵対的攻撃における特徴の顕著性を分析するための忠実度測定の関連性を実証します。
私たちの調査結果は、現在の忠実度指標の限界と、それらを適切に利用するための重要な考慮事項についての新たな洞察を提供します。

要約(オリジナル)

A common approach to quantifying model interpretability is to calculate faithfulness metrics based on iteratively masking input tokens and measuring how much the predicted label changes as a result. However, we show that such metrics are generally not suitable for comparing the interpretability of different neural text classifiers as the response to masked inputs is highly model-specific. We demonstrate that iterative masking can produce large variation in faithfulness scores between comparable models, and show that masked samples are frequently outside the distribution seen during training. We further investigate the impact of adversarial attacks and adversarial training on faithfulness scores, and demonstrate the relevance of faithfulness measures for analyzing feature salience in text adversarial attacks. Our findings provide new insights into the limitations of current faithfulness metrics and key considerations to utilize them appropriately.

arxiv情報

著者 Evan Crothers,Herna Viktor,Nathalie Japkowicz
発行日 2023-08-13 15:44:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク