要約
特徴属性スコアは、k 個のトークンを強調表示することにより、テキスト分類子の予測をユーザーに説明するために使用されます。
この研究では、アトリビューション スコアの連続的なプロパティから表示されるべき最適な k 個のトークンの数を決定する方法を提案します。
私たちのアプローチは文全体にわたって動的であり、方法に依存せず、文の長さのバイアスに対処します。
固定 k と動的 k を使用して、NLI タスクに関する複数のメソッドと人間の間の一致を比較します。
摂動ベースの方法とバニラ勾配は、静的な k を使用するほとんどの方法 (方法と方法) の人間の一致指標に対して最も高い一致を示すことがわかりました。
他のメソッドに対する利点は、主に Integrated Gradient と GradientXInput を改善する動的 ks によって失われます。
私たちの知る限り、これは、アトリビューション スコアの連続的な特性が、人間による解釈のためのアトリビューション シグナルを統合するのに有益であることを示す最初の証拠です。
要約(オリジナル)
Feature attribution scores are used for explaining the prediction of a text classifier to users by highlighting a k number of tokens. In this work, we propose a way to determine the number of optimal k tokens that should be displayed from sequential properties of the attribution scores. Our approach is dynamic across sentences, method-agnostic, and deals with sentence length bias. We compare agreement between multiple methods and humans on an NLI task, using fixed k and dynamic k. We find that perturbation-based methods and Vanilla Gradient exhibit highest agreement on most method–method and method–human agreement metrics with a static k. Their advantage over other methods disappears with dynamic ks which mainly improve Integrated Gradient and GradientXInput. To our knowledge, this is the first evidence that sequential properties of attribution scores are informative for consolidating attribution signals for human interpretation.
arxiv情報
| 著者 | Jonathan Kamp,Lisa Beinborn,Antske Fokkens |
| 発行日 | 2023-10-09 11:19:33+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google