VISIT: Visualizing and Interpreting the Semantic Information Flow of Transformers

要約

解釈可能性の最近の進歩は、トランスフォーマーベースの言語モデル (LM) の重みと隠れ状態をその語彙に投影できること、つまり人間がより解釈しやすいものにする変換ができることを示唆しています。
この論文では、LM アテンション ヘッドとメモリ値、つまりモデルが特定の入力を処理する際に動的に作成および呼び出すベクトルを調査します。
この投影を通じてそれらが表すトークンを分析することにより、注意メカニズム内の情報フローのパターンを特定します。
私たちの発見に基づいて、生成事前トレーニング変換器 (GPT) のフォワード パスを対話型フロー グラフとして視覚化するツールを作成します。ノードはニューロンまたは隠れ状態を表し、エッジはそれらの間の相互作用を表します。
私たちの視覚化は、モデルの内部処理を反映できる読みやすいプロットに大量のデータを簡素化し、モデルの最終予測に対する各コンポーネントの寄与を明らかにします。
また、私たちの視覚化により、モデルの出力に影響を与えるセマンティック フィルターとしてのレイヤー ノルムの役割と、フォワード パス中に常にアクティブ化され、正則化ベクトルとして機能するニューロンについての新しい洞察も明らかになります。

要約(オリジナル)

Recent advances in interpretability suggest we can project weights and hidden states of transformer-based language models (LMs) to their vocabulary, a transformation that makes them more human interpretable. In this paper, we investigate LM attention heads and memory values, the vectors the models dynamically create and recall while processing a given input. By analyzing the tokens they represent through this projection, we identify patterns in the information flow inside the attention mechanism. Based on our discoveries, we create a tool to visualize a forward pass of Generative Pre-trained Transformers (GPTs) as an interactive flow graph, with nodes representing neurons or hidden states and edges representing the interactions between them. Our visualization simplifies huge amounts of data into easy-to-read plots that can reflect the models’ internal processing, uncovering the contribution of each component to the models’ final prediction. Our visualization also unveils new insights about the role of layer norms as semantic filters that influence the models’ output, and about neurons that are always activated during forward passes and act as regularization vectors.

arxiv情報

著者 Shahar Katz,Yonatan Belinkov
発行日 2023-11-24 12:02:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, I.2.7 パーマリンク