COCKATIEL: COntinuous Concept ranKed ATtribution with Interpretable ELements for explaining neural net classifiers on NLP tasks

要約

トランスフォーマーアーキテクチャは複雑であり、NLPでの使用は多くの成功を生んでいるが、その解釈可能性や説明可能性は困難である。最近の議論では、アテンションマップやアトリビューション手法が信頼できないことが示されている(Pruthi et al.、2019;Brunner et al.、2019)。本論文では、それらの限界をいくつか紹介し、そのいくつかにうまく対処するCOCKATIELを紹介する。COCKATIELは、Non-Negative Matrix Factorization(NMF)を用いてモデルが予測を行うために活用する概念を発見し、感度分析を利用してモデルに対するこれらの概念のそれぞれの重要性を正確に推定することにより、NLP分類タスクで学習したニューラルネットモデルの最終層から意味のある説明を生成する、概念ベースの、モデルを問わない新しいXAI技術である。これは、基礎となるモデルの精度を落とすことなく、また新たにモデルを学習させることなく行うことができます。我々は、単一および多面的な感情分析タスクで実験を行い、COCKATIELがTransformerモデル上で人間と一致する概念を監視なしで発見する優れた能力を示し、忠実度メトリクスによってその説明の忠実度を客観的に検証し、二つの異なるデータセットにおいて意味のある説明を提供する能力を披露する。

要約(オリジナル)

Transformer architectures are complex and their use in NLP, while it has engendered many successes, makes their interpretability or explainability challenging. Recent debates have shown that attention maps and attribution methods are unreliable (Pruthi et al., 2019; Brunner et al., 2019). In this paper, we present some of their limitations and introduce COCKATIEL, which successfully addresses some of them. COCKATIEL is a novel, post-hoc, concept-based, model-agnostic XAI technique that generates meaningful explanations from the last layer of a neural net model trained on an NLP classification task by using Non-Negative Matrix Factorization (NMF) to discover the concepts the model leverages to make predictions and by exploiting a Sensitivity Analysis to estimate accurately the importance of each of these concepts for the model. It does so without compromising the accuracy of the underlying model or requiring a new one to be trained. We conduct experiments in single and multi-aspect sentiment analysis tasks and we show COCKATIEL’s superior ability to discover concepts that align with humans’ on Transformer models without any supervision, we objectively verify the faithfulness of its explanations through fidelity metrics, and we showcase its ability to provide meaningful explanations in two different datasets.

arxiv情報

著者 Fanny Jourdan,Agustin Picard,Thomas Fel,Laurent Risser,Jean Michel Loubes,Nicholas Asher
発行日 2023-05-11 12:22:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク