DecoderLens: Layerwise Interpretation of Encoder-Decoder Transformers

要約

近年、Transformerモデルの内部状態を解釈するために、さまざまな精度や複雑さのレベルで、多くの解釈可能性手法が提案されている。ここでは、エンコーダ・デコーダTransformerを解析するために、シンプルで新しい手法を提案する:DecoderLensである。LogitLens(デコーダのみのTransformerのための)に触発されたこの方法は、エンコーダ-デコーダモデルで通常行われるように、最終的なエンコーダ出力を使用する代わりに、中間エンコーダ層の表現をデコーダにクロスアタッチさせる。この方法により、以前は解釈不可能であったベクトル表現が、人間が解釈可能な単語や記号のシーケンスにマッピングされる。DecoderLensを質問応答、論理的推論、音声認識、機械翻訳に学習させたモデルに適用した結果を報告する。DecoderLensは、低レイヤーまたは中間レイヤーで解決されるいくつかの特定のサブタスクを明らかにし、この重要なクラスのモデルのエンコーダコンポーネント内部の情報の流れに新たな光を当てる。

要約(オリジナル)

In recent years, many interpretability methods have been proposed to help interpret the internal states of Transformer-models, at different levels of precision and complexity. Here, to analyze encoder-decoder Transformers, we propose a simple, new method: DecoderLens. Inspired by the LogitLens (for decoder-only Transformers), this method involves allowing the decoder to cross-attend representations of intermediate encoder layers instead of using the final encoder output, as is normally done in encoder-decoder models. The method thus maps previously uninterpretable vector representations to human-interpretable sequences of words or symbols. We report results from the DecoderLens applied to models trained on question answering, logical reasoning, speech recognition and machine translation. The DecoderLens reveals several specific subtasks that are solved at low or intermediate layers, shedding new light on the information flow inside the encoder component of this important class of models.

arxiv情報

著者 Anna Langedijk,Hosein Mohebbi,Gabriele Sarti,Willem Zuidema,Jaap Jumelet
発行日 2024-04-03 12:09:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク