Faithful Explanations of Black-box NLP Models Using LLM-generated Counterfactuals

要約

NLP システムの予測の因果関係の説明は、安全性を確保し、信頼を確立するために不可欠です。
しかし、既存の手法はモデル予測を効果的または効率的に説明するには不十分であることが多く、多くの場合モデル固有です。
この論文では、モデルに依存しない説明に取り組み、反事実 (CF) 近似のための 2 つのアプローチを提案します。
最初のアプローチは CF 生成です。CF 生成では、大規模言語モデル (LLM) が、交絡する概念を変更せずに、特定のテキストの概念を変更するように求められます。
このアプローチは非常に効果的であることが実証されていますが、推論時に LLM を適用するとコストがかかります。
したがって、我々はマッチングに基づく 2 番目のアプローチを提示し、トレーニング時に LLM によってガイドされ、専用の埋め込み空間を学習する方法を提案します。
この空間は特定の因果関係グラフに忠実であり、CF に近似する一致を特定するのに効果的に役立ちます。
忠実な説明を構築するには近似 CF が必要であることを理論的に示した後、アプローチをベンチマークし、数十億のパラメーターを持つ LLM を含むいくつかのモデルを説明します。
私たちの経験的結果は、モデルに依存しない説明者としての CF 生成モデルの優れたパフォーマンスを示しています。
さらに、テスト時間のリソースがはるかに少なくて済む当社のマッチング アプローチは、多くのベースラインを上回る効果的な説明も提供します。
また、Top-K テクニックがテストされたすべてのメソッドを普遍的に向上させることもわかりました。
最後に、モデル説明のための新しいベンチマークを構築する際の LLM の可能性を示し、その後、結論を検証します。
私たちの研究は、NLP システムを解釈するための効率的かつ正確なアプローチのための新しい道筋を明らかにします。

要約(オリジナル)

Causal explanations of the predictions of NLP systems are essential to ensure safety and establish trust. Yet, existing methods often fall short of explaining model predictions effectively or efficiently and are often model-specific. In this paper, we address model-agnostic explanations, proposing two approaches for counterfactual (CF) approximation. The first approach is CF generation, where a large language model (LLM) is prompted to change a specific text concept while keeping confounding concepts unchanged. While this approach is demonstrated to be very effective, applying LLM at inference-time is costly. We hence present a second approach based on matching, and propose a method that is guided by an LLM at training-time and learns a dedicated embedding space. This space is faithful to a given causal graph and effectively serves to identify matches that approximate CFs. After showing theoretically that approximating CFs is required in order to construct faithful explanations, we benchmark our approaches and explain several models, including LLMs with billions of parameters. Our empirical results demonstrate the excellent performance of CF generation models as model-agnostic explainers. Moreover, our matching approach, which requires far less test-time resources, also provides effective explanations, surpassing many baselines. We also find that Top-K techniques universally improve every tested method. Finally, we showcase the potential of LLMs in constructing new benchmarks for model explanation and subsequently validate our conclusions. Our work illuminates new pathways for efficient and accurate approaches to interpreting NLP systems.

arxiv情報

著者 Yair Gat,Nitay Calderon,Amir Feder,Alexander Chapanin,Amit Sharma,Roi Reichart
発行日 2023-11-22 08:00:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク