Towards Unifying Evaluation of Counterfactual Explanations: Leveraging Large Language Models for Human-Centric Assessments

要約

機械学習モデルが進化するにつれて、透明性を維持するには、より人間中心の説明可能なAI技術が必要です。
人間の推論にルーツを持つ反事実的な説明は、特定の出力を取得するために必要な最小入力の変更を特定するため、意思決定をサポートするために重要です。
それらの重要性にもかかわらず、これらの説明の評価には、ユーザー研究の根拠が欠けていることが多く、断片化されたままであり、既存のメトリックは人間の視点を完全には捉えていません。
この課題に対処するために、206人の回答者からの8つの評価メトリックにわたって、30の反事実的シナリオの多様なセットを開発し、収集しました。
その後、これらのメトリック全体で平均または個々の人間の判断を予測するために、さまざまな大手言語モデル(LLM)を微調整しました。
私たちの方法論により、LLMSは、ゼロショット評価で最大63%の精度を達成し、すべてのメトリックで微調整された85%(3クラスの予測を超えて)を達成することができました。
人間の評価を予測する微調整されたモデルは、異なる反事実的説明フレームワークを評価する際に、より良い比較可能性とスケーラビリティを提供します。

要約(オリジナル)

As machine learning models evolve, maintaining transparency demands more human-centric explainable AI techniques. Counterfactual explanations, with roots in human reasoning, identify the minimal input changes needed to obtain a given output and, hence, are crucial for supporting decision-making. Despite their importance, the evaluation of these explanations often lacks grounding in user studies and remains fragmented, with existing metrics not fully capturing human perspectives. To address this challenge, we developed a diverse set of 30 counterfactual scenarios and collected ratings across 8 evaluation metrics from 206 respondents. Subsequently, we fine-tuned different Large Language Models (LLMs) to predict average or individual human judgment across these metrics. Our methodology allowed LLMs to achieve an accuracy of up to 63% in zero-shot evaluations and 85% (over a 3-classes prediction) with fine-tuning across all metrics. The fine-tuned models predicting human ratings offer better comparability and scalability in evaluating different counterfactual explanation frameworks.

arxiv情報

著者 Marharyta Domnich,Julius Välja,Rasmus Moorits Veski,Giacomo Magnifico,Kadi Tulver,Eduard Barbu,Raul Vicente
発行日 2025-04-22 14:15:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク