Attention Mechanisms Don’t Learn Additive Models: Rethinking Feature Importance for Transformers

要約

私たちは、自然言語処理やその他の分野で現在のアプリケーションを支配しているトランスフォーマー アーキテクチャに特徴帰属手法を適用するという重要な課題に取り組みます。
Explainable AI (XAI) への従来のアトリビューション手法は、線形または相加的サロゲート モデルに明示的または暗黙的に依存して、モデルの出力に対する入力特徴の影響を定量化します。
この研究では、私たちは憂慮すべき非互換性を正式に証明しました。変換器は構造的に、特徴の帰属に使用される線形または加算的なサロゲート モデルを表現することができず、これらの従来の説明方法論の基盤を損なうものです。
この不一致に対処するために、Softmax-Linked Additive Log Odds Model (SLALOM) を導入します。これは、トランスフレームワークに合わせて特別に設計された新しいサロゲート モデルです。
SLALOM は、合成データセットと現実世界のデータセットの両方を使用して、さまざまな洞察に満ちた説明を提供する能力を実証します。
SLALOM が競合するサロゲート モデルよりも大幅に高い忠実度で説明を生成できること、または数分の 1 の計算コストで同等の品質の説明を提供できることを示すことで、SLALOM の独自の効率と品質の曲線を強調します。
SLALOM のコードをオープンソース プロジェクトとしてオンラインで https://github.com/tleemann/slalom_explanations でリリースします。

要約(オリジナル)

We address the critical challenge of applying feature attribution methods to the transformer architecture, which dominates current applications in natural language processing and beyond. Traditional attribution methods to explainable AI (XAI) explicitly or implicitly rely on linear or additive surrogate models to quantify the impact of input features on a model’s output. In this work, we formally prove an alarming incompatibility: transformers are structurally incapable of representing linear or additive surrogate models used for feature attribution, undermining the grounding of these conventional explanation methodologies. To address this discrepancy, we introduce the Softmax-Linked Additive Log Odds Model (SLALOM), a novel surrogate model specifically designed to align with the transformer framework. SLALOM demonstrates the capacity to deliver a range of insightful explanations with both synthetic and real-world datasets. We highlight SLALOM’s unique efficiency-quality curve by showing that SLALOM can produce explanations with substantially higher fidelity than competing surrogate models or provide explanations of comparable quality at a fraction of their computational costs. We release code for SLALOM as an open-source project online at https://github.com/tleemann/slalom_explanations.

arxiv情報

著者 Tobias Leemann,Alina Fastowski,Felix Pfeiffer,Gjergji Kasneci
発行日 2025-01-09 17:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク