Exploring the Residual Stream of Transformers

要約

トランスベースのモデルは近年大きな進歩を遂げています。
しかし、モデルが強力な出力を持つ理由を説明する分野では、まだ答えられていない重要な疑問がたくさんあります。
次の単語を予測するための知識を保存するモデルの重要なパラメーターを見つける方法、およびこれらのパラメーターが同じレイヤー/モジュールに保存されているのか、それとも異なるレイヤー/モジュールに保存されているのかはわかりません。
さらに、次の単語を予測するための最終的な埋め込みに知識をマージするメカニズムも理解していません。
この論文では、解釈可能性を高めるために変圧器の残留ストリームを調査します。
残留接続の背後にあるメカニズムは、before-softmax 値の直接加算関数であるため、より大きな before-softmax 値を持つトークンの確率が増加することがわかります。
さらに、対数確率増加を寄与スコアとして使用することが合理的であることを証明し、これに基づいて重要なパラメータを特定できる。
さらに、内積を比較することにより、前の層が上位層にどのような影響を与えるかを分析する方法を提案します。
実験結果とケーススタディは、私たちの研究が変圧器ベースのモデルの解釈可能性を高めることができることを示しています。
コードは https://github.com/zepingyu0512/residualstream で公開します。

要約(オリジナル)

Transformer-based models have achieved great breakthroughs in recent years. However, there are many significant questions that have not been answered in the field of explaining the reason why the models have powerful outputs. We do not know how to locate the models’ important parameters storing the knowledge for predicting the next word, and whether these parameters are stored on the same layer/module or different ones. Moreover, we do not understand the mechanism to merge the knowledge into the final embedding for next word prediction. In this paper, we explore the residual stream of transformers to increase the interpretability. We find the mechanism behind residual connection is a direct addition function on before-softmax values, so the probabilities of tokens with larger before-softmax values will increase. Moreover, we prove that using log probability increase as contribution scores is reasonable, and based on this we can locate important parameters. Besides, we propose a method to analyze how previous layers affect upper layers by comparing the inner products. The experimental results and case study show that our research can increase the interpretability of transformer-based models. We will release our code on https://github.com/zepingyu0512/residualstream.

arxiv情報

著者 Zeping Yu,Kailai Yang,Zhiwei Liu,Sophia Ananiadou
発行日 2023-12-19 13:23:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク