要約
Transformer アーキテクチャは、大規模言語モデル (LLM) を構築するための有力な選択肢として浮上しています。
ただし、新しい LLM が頻繁に登場するため、さまざまなアーキテクチャにわたって解釈可能性を提供できる、アーキテクチャに依存しないアプローチの潜在的な価値を考慮することが重要です。
LLM の解釈可能性における最近の成功にもかかわらず、既存のアプローチの多くは、特定のモデル設計に関連付けられていることが多く、多大な計算コストを伴う複雑な手法に依存しています。
これらの制限に対処するために、個々の入力トークンの重要性を評価するための NormXLogit と呼ばれる新しい手法を提案します。
このメソッドは、各トークンに関連付けられた入力表現と出力表現に基づいて動作します。
まず、LLM の事前トレーニング中に、単語埋め込みの規範が入力トークンの重要性を捉えていることを示します。
第 2 に、トークンの重要性と、その表現がモデルの最終予測にどの程度似ているかの程度との間に重要な関係があることを明らかにします。
広範な分析を通じて、私たちのアプローチは忠実性の点で既存の勾配ベースの方法よりも常に優れていることを示します。
さらに、私たちの方法は、最も著名なアーキテクチャ固有の方法と比較して、層ごとの説明で優れたパフォーマンスを実現します。
要約(オリジナル)
The Transformer architecture has emerged as the dominant choice for building large language models (LLMs). However, with new LLMs emerging on a frequent basis, it is important to consider the potential value of architecture-agnostic approaches that can provide interpretability across a variety of architectures. Despite recent successes in the interpretability of LLMs, many existing approaches rely on complex methods that are often tied to a specific model design and come with a significant computational cost. To address these limitations, we propose a novel technique, called NormXLogit, for assessing the significance of individual input tokens. This method operates based on the input and output representations associated with each token. First, we demonstrate that during the pre-training of LLMs, the norms of word embeddings capture the importance of input tokens. Second, we reveal a significant relationship between a token’s importance and the extent to which its representation can resemble the model’s final prediction. Through extensive analysis, we show that our approach consistently outperforms existing gradient-based methods in terms of faithfulness. Additionally, our method achieves better performance in layer-wise explanations compared to the most prominent architecture-specific methods.
arxiv情報
著者 | Sina Abbasi,Mohammad Reza Modarres,Mohammad Taher Pilehvar |
発行日 | 2024-11-25 10:12:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google