要約
ある決定を別の決定と対比させて説明する対比的説明は、決定が必ずしも代替案を参照していない非対比的説明よりも、人間が決定を説明する方法に近いと考えられています。
この主張は経験的に検証されたことがありません。
4 つの英語テキスト分類データセット (SST2、DynaSent、BIOS、DBpedia-Animals) を分析します。
それぞれ 3 つの異なるサイズの 3 つの異なるモデル (RoBERTa、GTP-2、および T5) から説明を微調整して抽出し、3 つの事後説明可能性手法 (LRP、GradientxInput、GradNorm) を適用します。
さらに、対照的な設定と非対照的な設定について、BIOS データセットから 100 個のサンプルのサブセットに対する人間による理論的根拠の注釈を収集して公開します。
対照的な設定と非対照的な設定の両方で、モデルベースの理論的根拠と人間による注釈を相互比較すると、モデルと人間の両方の設定の間で高い一致が得られます。
さらに、両方の設定で計算されたモデルベースの説明は、人間の理論的根拠と同様によく一致します。
したがって、人間は必ずしも対照的な方法で説明するとは限らないことが経験的にわかります。9 ページ、ACL 2022 議事録の長い論文。
要約(オリジナル)
Contrastive explanations, where one decision is explained in contrast to another, are supposed to be closer to how humans explain a decision than non-contrastive explanations, where the decision is not necessarily referenced to an alternative. This claim has never been empirically validated. We analyze four English text-classification datasets (SST2, DynaSent, BIOS and DBpedia-Animals). We fine-tune and extract explanations from three different models (RoBERTa, GTP-2, and T5), each in three different sizes and apply three post-hoc explainability methods (LRP, GradientxInput, GradNorm). We furthermore collect and release human rationale annotations for a subset of 100 samples from the BIOS dataset for contrastive and non-contrastive settings. A cross-comparison between model-based rationales and human annotations, both in contrastive and non-contrastive settings, yields a high agreement between the two settings for models as well as for humans. Moreover, model-based explanations computed in both settings align equally well with human rationales. Thus, we empirically find that humans do not necessarily explain in a contrastive manner.9 pages, long paper at ACL 2022 proceedings.
arxiv情報
著者 | Oliver Eberle,Ilias Chalkidis,Laura Cabello,Stephanie Brandl |
発行日 | 2023-10-18 11:54:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google