TokenSHAP: Interpreting Large Language Models with Monte Carlo Shapley Value Estimation

要約

大規模言語モデル (LLM) が重要なアプリケーションでますます普及するにつれて、解釈可能な AI の必要性が高まっています。
入力プロンプト内の個々のトークンまたは部分文字列に重要性を帰すことによって LLM を解釈するための新しい方法である TokenSHAP を紹介します。
このアプローチは、Shapley の価値観を協調ゲーム理論から自然言語処理に適応させ、入力のさまざまな部分がモデルの応答にどのように寄与するかを理解するための厳密なフレームワークを提供します。
TokenSHAP は、計算効率のためにモンテカルロ サンプリングを活用し、トークンの重要性の解釈可能な定量的な尺度を提供します。
私たちは、さまざまなプロンプトと LLM アーキテクチャにわたってその有効性を実証し、人間の判断に沿った既存のベースラインに対する一貫した改善、モデル動作への忠実性、および一貫性を示しています。
トークン間の微妙な相互作用を捕捉する私たちのメソッドの機能は、LLM の動作に関する貴重な洞察を提供し、モデルの透明性を高め、迅速なエンジニアリングを改善し、より信頼性の高い AI システムの開発を支援します。
TokenSHAP は、責任ある AI の導入に必要な解釈可能性への重要な一歩を表し、より透明性があり、説明責任があり、信頼できる AI システムを作成するという広範な目標に貢献します。

要約(オリジナル)

As large language models (LLMs) become increasingly prevalent in critical applications, the need for interpretable AI has grown. We introduce TokenSHAP, a novel method for interpreting LLMs by attributing importance to individual tokens or substrings within input prompts. This approach adapts Shapley values from cooperative game theory to natural language processing, offering a rigorous framework for understanding how different parts of an input contribute to a model’s response. TokenSHAP leverages Monte Carlo sampling for computational efficiency, providing interpretable, quantitative measures of token importance. We demonstrate its efficacy across diverse prompts and LLM architectures, showing consistent improvements over existing baselines in alignment with human judgments, faithfulness to model behavior, and consistency. Our method’s ability to capture nuanced interactions between tokens provides valuable insights into LLM behavior, enhancing model transparency, improving prompt engineering, and aiding in the development of more reliable AI systems. TokenSHAP represents a significant step towards the necessary interpretability for responsible AI deployment, contributing to the broader goal of creating more transparent, accountable, and trustworthy AI systems.

arxiv情報

著者 Roni Goldshmidt,Miriam Horovicz
発行日 2024-07-22 08:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク