FitCF: A Framework for Automatic Feature Importance-guided Counterfactual Example Generation

要約

反事実的な例は、モデルを改善するための貴重なデータとして、およびモデルの行動を理解するための説明可能な人工知能(XAI)として、自然言語処理(NLP)で広く使用されています。
多くのタスクでの印象的なパフォーマンスにもかかわらず、大規模な言語モデル(LLM)にとっても、反事実的な例の自動生成は依然として困難な作業です。
この論文では、最初にZerocfを紹介します。これは、ゼロショット設定で反事実的な例を生成するために、特徴属性メソッドから派生した重要な単語を活用するための忠実なアプローチです。
第二に、新しいフレームワークであるFITCFを提示します。これは、ラベルフリップ検証によって前述の反事実をさらに検証し、2つの最先端のベースラインを上回る少数のショットプロンプトのデモとしてそれらを挿入します。
アブレーション研究を通じて、フリップレート、困惑、および類似性測定で評価されるように、反事実の品質を改善する上で、FITCFの各コアコンポーネントの重要性を特定します。
さらに、FITCFのバックボーン属性法としての石灰と統合勾配の有効性を示し、デモの数がパフォーマンスに最大の影響を与えることを発見します。
最後に、機能の帰属スコアの忠実さと生成された反事実の品質との間に強い相関関係を明らかにします。

要約(オリジナル)

Counterfactual examples are widely used in natural language processing (NLP) as valuable data to improve models, and in explainable artificial intelligence (XAI) to understand model behavior. The automated generation of counterfactual examples remains a challenging task even for large language models (LLMs), despite their impressive performance on many tasks. In this paper, we first introduce ZeroCF, a faithful approach for leveraging important words derived from feature attribution methods to generate counterfactual examples in a zero-shot setting. Second, we present a new framework, FitCF, which further verifies aforementioned counterfactuals by label flip verification and then inserts them as demonstrations for few-shot prompting, outperforming two state-of-the-art baselines. Through ablation studies, we identify the importance of each of FitCF’s core components in improving the quality of counterfactuals, as assessed through flip rate, perplexity, and similarity measures. Furthermore, we show the effectiveness of LIME and Integrated Gradients as backbone attribution methods for FitCF and find that the number of demonstrations has the largest effect on performance. Finally, we reveal a strong correlation between the faithfulness of feature attribution scores and the quality of generated counterfactuals.

arxiv情報

著者 Qianli Wang,Nils Feldhus,Simon Ostermann,Luis Felipe Villa-Arenas,Sebastian Möller,Vera Schmitt
発行日 2025-05-15 14:18:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク