Counterfactuals of Counterfactuals: a back-translation-inspired approach to analyse counterfactual editors

要約

責任ある AI の登場を受けて、ニューラル モデルの予測に説明を提供しようとする解釈可能性手法が急速に進歩しています。
この研究では、自然言語処理 (NLP) モデルとタスクに適用できる説明に関心があり、特に反事実的で対照的な説明の分析に焦点を当てています。
反事実的な説明を行うために提案された説明者が何人かいる一方で、彼らの行動は大きく異なる可能性があり、反事実的な編集に対する普遍的な根拠の欠如がその評価に乗り越えられない障壁を課していることに注意してください。
我々は、説明者の一貫性を調査するためのグラウンドトゥルースプロキシとして説明者の以前の出力を利用する、バックトランスレーションにヒントを得た新しい評価方法論を提案します。
反事実を説明者に繰り返し与えることで、予測者モデルと説明者モデルの両方の動作に関する貴重な洞察が得られ、そうでなければ不明瞭になるパターンを推測できることを示します。
この方法論を使用して、私たちは徹底的な分析を実施し、利用可能なパフォーマンス指標全体でさまざまな特性を持つ反事実生成アプローチの一貫性を評価するための新しい指標を提案します。

要約(オリジナル)

In the wake of responsible AI, interpretability methods, which attempt to provide an explanation for the predictions of neural models have seen rapid progress. In this work, we are concerned with explanations that are applicable to natural language processing (NLP) models and tasks, and we focus specifically on the analysis of counterfactual, contrastive explanations. We note that while there have been several explainers proposed to produce counterfactual explanations, their behaviour can vary significantly and the lack of a universal ground truth for the counterfactual edits imposes an insuperable barrier on their evaluation. We propose a new back translation-inspired evaluation methodology that utilises earlier outputs of the explainer as ground truth proxies to investigate the consistency of explainers. We show that by iteratively feeding the counterfactual to the explainer we can obtain valuable insights into the behaviour of both the predictor and the explainer models, and infer patterns that would be otherwise obscured. Using this methodology, we conduct a thorough analysis and propose a novel metric to evaluate the consistency of counterfactual generation approaches with different characteristics across available performance indicators.

arxiv情報

著者 Giorgos Filandrianos,Edmund Dervakos,Orfeas Menis-Mastromichalakis,Chrysoula Zerva,Giorgos Stamou
発行日 2023-05-26 16:04:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク