DecoderLens: Layerwise Interpretation of Encoder-Decoder Transformers

要約

近年、さまざまな精度と複雑さのレベルで Transformer モデルの内部状態を解釈するのに役立つ多くの解釈可能性手法が提案されています。
ここでは、エンコーダー/デコーダー トランスフォーマーを分析するために、シンプルで新しいメソッド DecoderLens を提案します。
LogitLens (デコーダ専用トランスフォーマ用) からインスピレーションを得たこの方法では、エンコーダ – デコーダ モデルで通常行われるように、最終エンコーダ出力を使用する代わりに、デコーダが中間エンコーダ層の表現を相互接続できるようにします。
したがって、この方法は、以前は解釈できなかったベクトル表現を人間が解釈可能な単語または記号のシーケンスにマッピングします。
質問応答、論理的推論、音声認識、機械翻訳についてトレーニングされたモデルに適用された DecoderLens の結果を報告します。
DecoderLens は、低層または中間層で解決されるいくつかの特定のサブタスクを明らかにし、この重要なクラスのモデルのエンコーダー コンポーネント内の情報フローに新たな光を当てます。

要約(オリジナル)

In recent years, many interpretability methods have been proposed to help interpret the internal states of Transformer-models, at different levels of precision and complexity. Here, to analyze encoder-decoder Transformers, we propose a simple, new method: DecoderLens. Inspired by the LogitLens (for decoder-only Transformers), this method involves allowing the decoder to cross-attend representations of intermediate encoder layers instead of using the final encoder output, as is normally done in encoder-decoder models. The method thus maps previously uninterpretable vector representations to human-interpretable sequences of words or symbols. We report results from the DecoderLens applied to models trained on question answering, logical reasoning, speech recognition and machine translation. The DecoderLens reveals several specific subtasks that are solved at low or intermediate layers, shedding new light on the information flow inside the encoder component of this important class of models.

arxiv情報

著者 Anna Langedijk,Hosein Mohebbi,Gabriele Sarti,Willem Zuidema,Jaap Jumelet
発行日 2023-10-05 17:04:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク