要約
特徴帰属手法は、モデル予測への説明として重要な入力トークンを強調表示します。これは、信頼できる AI を目指してディープ ニューラル ネットワークに広く適用されています。
しかし、最近の研究は、これらの方法によって提供される説明が忠実かつ堅牢であるという課題に直面していることを示しています。
この論文では、テキスト分類のためのより忠実な説明 (REGEX) に向けた堅牢性の向上と説明ガイド付きトレーニングを備えた方法を提案します。
まず、入力勾配正則化手法と仮想敵対的トレーニングによってモデルの堅牢性を向上させます。
次に、顕著なランキングを使用してノイズのあるトークンをマスクし、モデルの注意と特徴の帰属の間の類似性を最大化します。これは、他の外部情報をインポートすることなく、自己トレーニング手順と見なすことができます。
私たちは 5 つのアトリビューション方法を使用して 6 つのデータセットに対して広範な実験を実施し、ドメイン外設定での忠実性も評価します。
結果は、REGEX がすべての設定で説明の忠実度メトリクスを向上させ、2 つのランダム化テストに基づいて一貫した利益をさらに達成することを示しています。
さらに、REGEX によって生成されたハイライト説明を使用して、選択してから予測するモデルをトレーニングすると、エンドツーエンドの方法と同等のタスク パフォーマンスが得られることを示します。
要約(オリジナル)
Feature attribution methods highlight the important input tokens as explanations to model predictions, which have been widely applied to deep neural networks towards trustworthy AI. However, recent works show that explanations provided by these methods face challenges of being faithful and robust. In this paper, we propose a method with Robustness improvement and Explanation Guided training towards more faithful EXplanations (REGEX) for text classification. First, we improve model robustness by input gradient regularization technique and virtual adversarial training. Secondly, we use salient ranking to mask noisy tokens and maximize the similarity between model attention and feature attribution, which can be seen as a self-training procedure without importing other external information. We conduct extensive experiments on six datasets with five attribution methods, and also evaluate the faithfulness in the out-of-domain setting. The results show that REGEX improves fidelity metrics of explanations in all settings and further achieves consistent gains based on two randomization tests. Moreover, we show that using highlight explanations produced by REGEX to train select-then-predict models results in comparable task performance to the end-to-end method.
arxiv情報
| 著者 | Dongfang Li,Baotian Hu,Qingcai Chen,Shan He |
| 発行日 | 2023-12-29 13:07:07+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google