From Feature Importance to Natural Language Explanations Using LLMs with RAG

要約

機械学習が人間との対話を伴う自律的な意思決定プロセスにますます不可欠になるにつれ、会話手段を通じてモデルの出力を理解する必要性が高まります。
ごく最近では、基礎モデルが事後説明者としての可能性について研究されており、予測モデルの意思決定メカニズムを解明する道筋が提供されています。
この研究では、外部ナレッジ リポジトリを活用して、シーン理解タスク内のユーザー クエリに対する大規模言語モデル (LLM) の応答を通知する、追跡可能な質問応答を導入します。
このナレッジ リポジトリは、高レベルの特徴、特徴の重要性、および代替確率を含む、モデルの出力に関するコンテキストの詳細で構成されます。
特徴の重要性を計算するために、減算的反事実推論を使用します。これは、意味論的特徴の分解から生じる出力の変動を分析することを必要とする方法です。
さらに、シームレスな会話の流れを維持するために、人間の説明に関する社会科学研究から導き出された 4 つの主要な特性 (社会的、因果的、選択的、対照的) をワンショット プロンプトに統合し、応答生成プロセスを導きます。
私たちの評価では、LLM によって生成された説明がこれらの要素を包含していることが実証され、複雑なモデル出力と自然言語表現の間のギャップを埋める潜在力があることが示されました。

要約(オリジナル)

As machine learning becomes increasingly integral to autonomous decision-making processes involving human interaction, the necessity of comprehending the model’s outputs through conversational means increases. Most recently, foundation models are being explored for their potential as post hoc explainers, providing a pathway to elucidate the decision-making mechanisms of predictive models. In this work, we introduce traceable question-answering, leveraging an external knowledge repository to inform the responses of Large Language Models (LLMs) to user queries within a scene understanding task. This knowledge repository comprises contextual details regarding the model’s output, containing high-level features, feature importance, and alternative probabilities. We employ subtractive counterfactual reasoning to compute feature importance, a method that entails analysing output variations resulting from decomposing semantic features. Furthermore, to maintain a seamless conversational flow, we integrate four key characteristics – social, causal, selective, and contrastive – drawn from social science research on human explanations into a single-shot prompt, guiding the response generation process. Our evaluation demonstrates that explanations generated by the LLMs encompassed these elements, indicating its potential to bridge the gap between complex model outputs and natural language expressions.

arxiv情報

著者 Sule Tekkesinoglu,Lars Kunze
発行日 2024-07-30 17:27:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC, cs.LG パーマリンク