Analyzing Feed-Forward Blocks in Transformers through the Lens of Attention Map

要約

トランスフォーマーが幅広いタスクに遍在していることを考えると、その内部構造を解釈することは極めて重要な問題です。
それでも、その特定のコンポーネントであるフィードフォワード (FF) ブロックは、パラメーターの量がかなりあるにもかかわらず、一般にあまり分析されていません。
FF ブロックを人間に優しい視覚化スキームとしてアテンション マップにレンダリングすることで、FF ブロックの入力コンテキスト化効果を分析します。
マスク言語モデルと因果言語モデルの両方を使った実験により、FF ネットワークが入力の文脈化を変更して、特定のタイプの言語構成を強調することが明らかになりました。
さらに、FF とその周囲のコンポーネントは互いの効果を打ち消し合う傾向があり、Transformer 層の処理に潜在的な冗長性があることが示唆されています。

要約(オリジナル)

Given that Transformers are ubiquitous in wide tasks, interpreting their internals is a pivotal issue. Still, their particular components, feed-forward (FF) blocks, have typically been less analyzed despite their substantial parameter amounts. We analyze the input contextualization effects of FF blocks by rendering them in the attention maps as a human-friendly visualization scheme. Our experiments with both masked- and causal-language models reveal that FF networks modify the input contextualization to emphasize specific types of linguistic compositions. In addition, FF and its surrounding components tend to cancel out each other’s effects, suggesting potential redundancy in the processing of the Transformer layer.

arxiv情報

著者 Goro Kobayashi,Tatsuki Kuribayashi,Sho Yokoi,Kentaro Inui
発行日 2023-10-01 10:27:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク