LM Transparency Tool: Interactive Tool for Analyzing Transformer Language Models

要約

Transformer ベースの言語モデルの内部動作を分析するためのオープンソースの対話型ツールキットである LM Transparency Tool (LM-TT) を紹介します。
意思決定プロセスの孤立した部分に焦点を当てた以前の既存のツールとは異なり、私たちのフレームワークは予測プロセス全体を透明にするように設計されており、最上位層の表現からモデルの非常に細かい部分までモデルの動作を追跡することができます。

具体的には、(1) 入力から出力までの情報フロー全体の重要な部分を示し、(2) モデル ブロックによって行われた変更を個々のアテンション ヘッドとフィードフォワード ニューロンに帰属させることができ、(3) 関数の解釈が可能になります。
それらの頭またはニューロンの。
このパイプラインの重要な部分は、各ステップで特定のモデル コンポーネントの重要性を示すことです。
その結果、モデル コンポーネントが予測にとって重要な場合にのみ、モデル コンポーネントの役割を確認することができます。
どのコンポーネントを検査すべきかを知ることは、これらのコンポーネントの数が非常に多い大規模モデルを解析するための鍵となるため、私たちのツールは研究現場と実際のアプリケーションの両方で解釈可能性コミュニティを大きくサポートすると信じています。

要約(オリジナル)

We present the LM Transparency Tool (LM-TT), an open-source interactive toolkit for analyzing the internal workings of Transformer-based language models. Differently from previously existing tools that focus on isolated parts of the decision-making process, our framework is designed to make the entire prediction process transparent, and allows tracing back model behavior from the top-layer representation to very fine-grained parts of the model. Specifically, it (1) shows the important part of the whole input-to-output information flow, (2) allows attributing any changes done by a model block to individual attention heads and feed-forward neurons, (3) allows interpreting the functions of those heads or neurons. A crucial part of this pipeline is showing the importance of specific model components at each step. As a result, we are able to look at the roles of model components only in cases where they are important for a prediction. Since knowing which components should be inspected is key for analyzing large models where the number of these components is extremely high, we believe our tool will greatly support the interpretability community both in research settings and in practical applications.

arxiv情報

著者 Igor Tufanov,Karen Hambardzumyan,Javier Ferrando,Elena Voita
発行日 2024-04-10 13:39:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク