SIDU-TXT: An XAI Algorithm for NLP with a Holistic Assessment Approach

要約

説明可能なAI(XAI)は、「ブラックボックス」モデルの解読を助ける。主に画像領域においていくつかの手法が提案され、評価されてきたが、テキスト領域における説明可能性の探求は依然として成長中の研究分野である。本稿では、テキスト領域におけるXAI手法の適用可能性について掘り下げる。この文脈では、画像ベースの分類において顕著な領域全体を局所化する優れた能力が認められている「類似差分と一意性」(SIDU)XAI手法をテキストデータに拡張する。拡張手法であるSIDU-TXTは、「ブラックボックス」モデルからの特徴活性化マップを利用し、粒度の細かい単語ベースのレベルでヒートマップを生成することで、モデル予測にとって重要な文脈的に重要なテキスト要素を強調する説明を提供する。XAI手法を評価するための統一された基準が存在しないことを考慮し、本研究では全体論的な3段階の包括的評価フレームワークを適用する:様々な実験を通して、提案されたSIDU-TXTの有効性を評価するために、機能的評価、人間的評価、アプリケーション的評価の3つの評価フレームワークを適用する。我々は、映画レビューデータセットの感情分析タスクにおいて、SIDU-TXTが機能的評価と人間基盤評価の両方で優れており、Grad-CAMやLIMEのようなベンチマークと比較して、定量的・定性的分析を通じて優れた性能を示すことを発見した。庇護の意思決定という繊細で複雑な法的領域におけるアプリケーションに根ざした評価では、SIDU-TXTとGrad-CAMは、それぞれに長所と短所を持ちながら、同等のパフォーマンスを示している。しかしながら、両手法とも専門家の期待する洗練された基準を完全に満たすには至らず、このような領域に適したXAI手法の追加研究の必要性を強調している。

要約(オリジナル)

Explainable AI (XAI) aids in deciphering ‘black-box’ models. While several methods have been proposed and evaluated primarily in the image domain, the exploration of explainability in the text domain remains a growing research area. In this paper, we delve into the applicability of XAI methods for the text domain. In this context, the ‘Similarity Difference and Uniqueness’ (SIDU) XAI method, recognized for its superior capability in localizing entire salient regions in image-based classification is extended to textual data. The extended method, SIDU-TXT, utilizes feature activation maps from ‘black-box’ models to generate heatmaps at a granular, word-based level, thereby providing explanations that highlight contextually significant textual elements crucial for model predictions. Given the absence of a unified standard for assessing XAI methods, this study applies a holistic three-tiered comprehensive evaluation framework: Functionally-Grounded, Human-Grounded and Application-Grounded, to assess the effectiveness of the proposed SIDU-TXT across various experiments. We find that, in sentiment analysis task of a movie review dataset, SIDU-TXT excels in both functionally and human-grounded evaluations, demonstrating superior performance through quantitative and qualitative analyses compared to benchmarks like Grad-CAM and LIME. In the application-grounded evaluation within the sensitive and complex legal domain of asylum decision-making, SIDU-TXT and Grad-CAM demonstrate comparable performances, each with its own set of strengths and weaknesses. However, both methods fall short of entirely fulfilling the sophisticated criteria of expert expectations, highlighting the imperative need for additional research in XAI methods suitable for such domains.

arxiv情報

著者 Mohammad N. S. Jahromi,Satya. M. Muddamsetty,Asta Sofie Stage Jarlner,Anna Murphy Høgenhaug,Thomas Gammeltoft-Hansen,Thomas B. Moeslund
発行日 2024-02-05 14:29:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク