How good is my story? Towards quantitative metrics for evaluating LLM-generated XAI narratives

要約

XAI における LLM のアプリケーションは急速に発展しており、SHAP などの定量的な説明をユーザーフレンドリーな説明に変換して、より小さな予測モデルによって行われた決定を説明することです。
この分野では、人間の好みの研究や調査に頼らずに物語を評価することがますます重要になっています。
この研究では、表形式の分類タスクを説明するために LLM によって生成されたナラティブを評価するためのフレームワークを提案し、いくつかの自動化されたメトリクスを調査します。
私たちはアプローチを適用して、さまざまなデータセットとプロンプト タイプにわたるいくつかの最先端の LLM を比較します。
それらの有用性の実証として、これらの指標により、XAI ナラティブの LLM 幻覚に関連する新たな課題を特定することができます。

要約(オリジナル)

A rapidly developing application of LLMs in XAI is to convert quantitative explanations such as SHAP into user-friendly narratives to explain the decisions made by smaller prediction models. Evaluating the narratives without relying on human preference studies or surveys is becoming increasingly important in this field. In this work we propose a framework and explore several automated metrics to evaluate LLM-generated narratives for explanations of tabular classification tasks. We apply our approach to compare several state-of-the-art LLMs across different datasets and prompt types. As a demonstration of their utility, these metrics allow us to identify new challenges related to LLM hallucinations for XAI narratives.

arxiv情報

著者 Timour Ichmoukhamedov,James Hinns,David Martens
発行日 2024-12-13 15:45:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク