Explaining Language Models’ Predictions with High-Impact Concepts

要約

タイトル:高インパクトな概念を用いた言語モデルの予測の説明

要約:

– 大規模な事前学習言語モデルの登場により、モデルがなぜ特定の予測を行ったかを説明することが前例のない課題となっています。
– 言語の合成的な性質から、虚偽の相関がNLPシステムの信頼性をさらに低下させ、信頼できないモデル説明が出力予測と単なる相関しかないことが問題となっています。
– この問題を克服し、公平性と透明性を推進するために、ユーザーが常にモデルの動作を理解できるようにする信頼できる説明が急務となっています。
– 本研究では、概念ベースの解釈性手法をNLPに拡張する完全なフレームワークを提案しています。
– 具体的には、事前学習モデルの隠れ層の活性化から予測的な高レベル機能(概念)を抽出する事後解釈性手法を提案しています。
– 大きな影響を与える機能(高インパクト)を生成する存在に最適化します。
– さらに、普遍的に適用できる複数の評価指標を考案しています。
– 実験結果は、実際のタスクおよび合成タスクで、弊社の方法がベースラインと比較して予測的影響、使いやすさ、および信頼性において優れた結果を示していることを示しています。

要約(オリジナル)

The emergence of large-scale pretrained language models has posed unprecedented challenges in deriving explanations of why the model has made some predictions. Stemmed from the compositional nature of languages, spurious correlations have further undermined the trustworthiness of NLP systems, leading to unreliable model explanations that are merely correlated with the output predictions. To encourage fairness and transparency, there exists an urgent demand for reliable explanations that allow users to consistently understand the model’s behavior. In this work, we propose a complete framework for extending concept-based interpretability methods to NLP. Specifically, we propose a post-hoc interpretability method for extracting predictive high-level features (concepts) from the pretrained model’s hidden layer activations. We optimize for features whose existence causes the output predictions to change substantially, \ie generates a high impact. Moreover, we devise several evaluation metrics that can be universally applied. Extensive experiments on real and synthetic tasks demonstrate that our method achieves superior results on {predictive impact}, usability, and faithfulness compared to the baselines.

arxiv情報

著者 Ruochen Zhao,Shafiq Joty,Yongjie Wang,Tan Wang
発行日 2023-05-03 14:48:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク