EvalxNLP: A Framework for Benchmarking Post-Hoc Explainability Methods on NLP Models

要約

自然言語処理(NLP)モデルが進化を続け、重要なアプリケーションに不可欠になるにつれ、その解釈可能性を確保することが重要な課題となっている。説明可能性の手法が多様化し、利害関係者の要求も多様化しているため、利害関係者が特定のユースケースに合わせた適切な説明を選択できるフレームワークの重要性が高まっています。このニーズに対応するため、変換器ベースの自然言語処理モデルのための最新の特徴帰属法をベンチマークするPythonフレームワークEvalxNLPを紹介します。EvalxNLPはExplainable AI (XAI)の文献から広く認知されている8つの説明可能性テクニックを統合しており、ユーザーは忠実性、妥当性、複雑性などの主要な特性に基づいて説明を生成し、評価することができます。また、我々のフレームワークは、対話的なLLMベースのテキスト説明を提供し、生成された説明と評価結果に対するユーザの理解を促進する。人間による評価結果は、EvalxNLPのユーザ満足度が高いことを示しており、多様なユーザグループにわたる説明手法のベンチマークに有望なフレームワークであることを示唆している。ユーザーフレンドリーで拡張可能なプラットフォームを提供することで、EvalxNLPは説明可能性ツールを民主化し、自然言語処理におけるXAI技術の体系的な比較と発展を支援することを目指しています。

要約(オリジナル)

As Natural Language Processing (NLP) models continue to evolve and become integral to high-stakes applications, ensuring their interpretability remains a critical challenge. Given the growing variety of explainability methods and diverse stakeholder requirements, frameworks that help stakeholders select appropriate explanations tailored to their specific use cases are increasingly important. To address this need, we introduce EvalxNLP, a Python framework for benchmarking state-of-the-art feature attribution methods for transformer-based NLP models. EvalxNLP integrates eight widely recognized explainability techniques from the Explainable AI (XAI) literature, enabling users to generate and evaluate explanations based on key properties such as faithfulness, plausibility, and complexity. Our framework also provides interactive, LLM-based textual explanations, facilitating user understanding of the generated explanations and evaluation outcomes. Human evaluation results indicate high user satisfaction with EvalxNLP, suggesting it is a promising framework for benchmarking explanation methods across diverse user groups. By offering a user-friendly and extensible platform, EvalxNLP aims at democratizing explainability tools and supporting the systematic comparison and advancement of XAI techniques in NLP.

arxiv情報

著者 Mahdi Dhaini,Kafaite Zahra Hussain,Efstratios Zaradoukas,Gjergji Kasneci
発行日 2025-05-02 13:00:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク