Dynamic Top-k Estimation Consolidates Disagreement between Feature Attribution Methods

要約

特徴帰属スコアは、k個のトークンを強調表示することで、テキスト分類器の予測をユーザに説明するために用いられる。本研究では、属性スコアの連続的な特性から、表示すべき最適なk個のトークンの数を決定する方法を提案する。我々のアプローチは、文全体にわたって動的であり、手法に依存せず、文の長さのバイアスに対処する。我々は、固定kと動的kを用いて、NLIタスクにおける複数の手法と人間の一致度を比較した。我々は、摂動に基づく手法とバニラ勾配が、静的kにおいて、ほとんどの手法対手法、手法対人間の一致度メトリクスで最も高い一致度を示すことを発見した。我々の知る限り、これは帰属スコアのシーケンシャルな特性が、人間による解釈のための帰属シグナルの統合に有益であるという最初の証拠である。

要約(オリジナル)

Feature attribution scores are used for explaining the prediction of a text classifier to users by highlighting a k number of tokens. In this work, we propose a way to determine the number of optimal k tokens that should be displayed from sequential properties of the attribution scores. Our approach is dynamic across sentences, method-agnostic, and deals with sentence length bias. We compare agreement between multiple methods and humans on an NLI task, using fixed k and dynamic k. We find that perturbation-based methods and Vanilla Gradient exhibit highest agreement on most method–method and method–human agreement metrics with a static k. Their advantage over other methods disappears with dynamic ks which mainly improve Integrated Gradient and GradientXInput. To our knowledge, this is the first evidence that sequential properties of attribution scores are informative for consolidating attribution signals for human interpretation.

arxiv情報

著者 Jonathan Kamp,Lisa Beinborn,Antske Fokkens
発行日 2023-11-03 12:11:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク