Towards Unifying Evaluation of Counterfactual Explanations: Leveraging Large Language Models for Human-Centric Assessments

要約

機械学習モデルが進化するにつれて、透明性を維持するには、より人間中心の説明可能な AI 技術が必要になります。
人間の推論に根ざした反事実的な説明は、特定の出力を得るために必要な最小限の入力変更を特定するため、意思決定をサポートするために重要です。
その重要性にもかかわらず、これらの説明の評価はユーザー調査の根拠に欠けていることが多く、断片的なままであり、既存の指標は人間の視点を完全には捉えていません。
この課題に対処するために、私たちは 30 の反事実シナリオからなる多様なセットを開発し、206 人の回答者から 8 つの評価指標にわたる評価を収集しました。
その後、さまざまな大規模言語モデル (LLM) を微調整して、これらの指標全体にわたる平均または個々の人間の判断を予測しました。
私たちの方法論により、LLM はゼロショット評価で最大 63%、すべてのメトリクスにわたる微調整で 85% (3 クラス予測以上) の精度を達成することができました。
人間の評価を予測する微調整されたモデルは、さまざまな反事実の説明フレームワークを評価する際に、より優れた比較可能性と拡張性を提供します。

要約(オリジナル)

As machine learning models evolve, maintaining transparency demands more human-centric explainable AI techniques. Counterfactual explanations, with roots in human reasoning, identify the minimal input changes needed to obtain a given output and, hence, are crucial for supporting decision-making. Despite their importance, the evaluation of these explanations often lacks grounding in user studies and remains fragmented, with existing metrics not fully capturing human perspectives. To address this challenge, we developed a diverse set of 30 counterfactual scenarios and collected ratings across 8 evaluation metrics from 206 respondents. Subsequently, we fine-tuned different Large Language Models (LLMs) to predict average or individual human judgment across these metrics. Our methodology allowed LLMs to achieve an accuracy of up to 63% in zero-shot evaluations and 85% (over a 3-classes prediction) with fine-tuning across all metrics. The fine-tuned models predicting human ratings offer better comparability and scalability in evaluating different counterfactual explanation frameworks.

arxiv情報

著者 Marharyta Domnich,Julius Valja,Rasmus Moorits Veski,Giacomo Magnifico,Kadi Tulver,Eduard Barbu,Raul Vicente
発行日 2024-10-28 15:33:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク