要約
大規模言語モデル (LLM) は、多数の自然言語処理 (NLP) アプリケーションの強力なツールとして使用されることが増えています。
最近のイノベーションであるインコンテキスト学習 (ICL) により、LLM は推論時にプロンプトにいくつかの例を提供することで新しいタスクを学習できるため、モデルの微調整が不要になります。
LLM はいくつかのアプリケーションで利用されていますが、他のモデルの動作を説明する際の LLM の適用性は比較的未解明のままです。
新しい説明手法の数が増えているにもかかわらず、その多くはモデルへのホワイトボックス アクセスを必要としたり、計算コストが高かったりするため、次世代の事後説明手法の必要性が強調されています。
この研究では、他の予測モデルを説明する際の LLM の有効性を研究するための最初のフレームワークを紹介します。
より具体的には、我々は、複数のプロンプト戦略を包含する新しいフレームワークを提案します。i) 摂動ベースの ICL、ii) 予測ベースの ICL、iii) 指示ベースの ICL、および iv) 基礎となる情報のさまざまなレベルを伴う説明ベースの ICL
ML モデルとテスト サンプルの局所近傍。
私たちは、現実世界のベンチマーク データセットを使用して広範な実験を実施し、LLM で生成された説明が、ICL の例とモデル説明の生成における内部知識を活用する機能を利用して、最先端のポストホック エクスプローラーと同等に機能することを実証しました。
平均して、4 つのデータセットと 2 つの ML モデルにわたって、LLM が 72.19% の精度で最も重要な特徴を特定し、LLM ベースの説明フレームワークを探索する説明可能な人工知能 (XAI) の新たな境地を開くことがわかりました。
要約(オリジナル)
Large Language Models (LLMs) are increasingly used as powerful tools for a plethora of natural language processing (NLP) applications. A recent innovation, in-context learning (ICL), enables LLMs to learn new tasks by supplying a few examples in the prompt during inference time, thereby eliminating the need for model fine-tuning. While LLMs have been utilized in several applications, their applicability in explaining the behavior of other models remains relatively unexplored. Despite the growing number of new explanation techniques, many require white-box access to the model and/or are computationally expensive, highlighting a need for next-generation post hoc explainers. In this work, we present the first framework to study the effectiveness of LLMs in explaining other predictive models. More specifically, we propose a novel framework encompassing multiple prompting strategies: i) Perturbation-based ICL, ii) Prediction-based ICL, iii) Instruction-based ICL, and iv) Explanation-based ICL, with varying levels of information about the underlying ML model and the local neighborhood of the test sample. We conduct extensive experiments with real-world benchmark datasets to demonstrate that LLM-generated explanations perform on par with state-of-the-art post hoc explainers using their ability to leverage ICL examples and their internal knowledge in generating model explanations. On average, across four datasets and two ML models, we observe that LLMs identify the most important feature with 72.19% accuracy, opening up new frontiers in explainable artificial intelligence (XAI) to explore LLM-based explanation frameworks.
arxiv情報
| 著者 | Nicholas Kroeger,Dan Ley,Satyapriya Krishna,Chirag Agarwal,Himabindu Lakkaraju |
| 発行日 | 2023-10-09 15:31:03+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google