要約
大規模な言語モデルは偏った予測や幻覚を起こしやすいため、モデル内部の推論プロセスを理解することが最も重要であることが強調されています。
ただし、ブラックボックス変圧器モデル全体の忠実な帰属を達成し、計算効率を維持することは未解決の課題です。
Layer-wise Relevance Propagation アトリビューション手法を拡張してアテンション レイヤーを処理することで、これらの課題に効果的に対処します。
部分的な解決策は存在しますが、私たちの方法は、単一の逆方向パスと同様の計算効率で、入力だけでなく変換器モデルの潜在表現も忠実かつ全体的に帰属させる最初の方法です。
Llama 2、Flan-T5、および Vision Transformer アーキテクチャに関する既存の手法に対する広範な評価を通じて、私たちが提案するアプローチが忠実性の点で他の手法を上回っており、潜在表現の理解を可能にし、概念ベースの説明への扉を開くことを実証します。
GitHub https://github.com/rachtibat/LRP-for-Transformers でオープンソース実装を提供します。
要約(オリジナル)
Large Language Models are prone to biased predictions and hallucinations, underlining the paramount importance of understanding their model-internal reasoning process. However, achieving faithful attributions for the entirety of a black-box transformer model and maintaining computational efficiency is an unsolved challenge. By extending the Layer-wise Relevance Propagation attribution method to handle attention layers, we address these challenges effectively. While partial solutions exist, our method is the first to faithfully and holistically attribute not only input but also latent representations of transformer models with the computational efficiency similar to a singular backward pass. Through extensive evaluations against existing methods on Llama 2, Flan-T5 and the Vision Transformer architecture, we demonstrate that our proposed approach surpasses alternative methods in terms of faithfulness and enables the understanding of latent representations, opening up the door for concept-based explanations. We provide an open-source implementation on GitHub https://github.com/rachtibat/LRP-for-Transformers.
arxiv情報
著者 | Reduan Achtibat,Sayed Mohammad Vakilzadeh Hatefi,Maximilian Dreyer,Aakriti Jain,Thomas Wiegand,Sebastian Lapuschkin,Wojciech Samek |
発行日 | 2024-02-08 12:01:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google