Locating and Editing Factual Associations in Mamba

要約

我々はMamba状態空間モデルにおける事実想起のメカニズムを研究する。私たちの研究は、自己回帰変換言語モデルにおいて、知識想起が特定のトークン位置の特定のモジュールに局所化されることを示唆する過去の知見に触発されたものである。これを調べるために、我々はMambaで4つの実験を行った。第一に、事実の想起を担うマンバ内部の主要な構成要素を局所化するために、因果追跡やインターチェンジ介入を適用し、中間層内の特定の構成要素が被験者の最後のトークンで強い因果効果を示す一方、それ以降の層に介入した場合の因果効果はプロンプトの最後のトークンで最も顕著であることを明らかにし、自己回帰変換器に関するこれまでの知見と一致する。第二に、ランクワンモデル編集法が特定の位置に事実を挿入することに成功することを示す。第三に、マンバの事実関係表現の線形性を検証する。最後に、アテンション・ノックアウト技術をマンバに適用し、事実想起時の情報の流れを解析する。我々はマンバを同サイズのトランスフォーマーと直接比較し、アーキテクチャのアプローチに大きな違いがあるにもかかわらず、事実想起に関しては、2つのアーキテクチャには多くの共通点があると結論づけた。

要約(オリジナル)

We investigate the mechanisms of factual recall in the Mamba state space model. Our work is inspired by previous findings in autoregressive transformer language models suggesting that their knowledge recall is localized to particular modules at specific token locations; we therefore ask whether factual recall in Mamba can be similarly localized. To investigate this, we conduct four lines of experiments on Mamba. First, we apply causal tracing or interchange interventions to localize key components inside Mamba that are responsible for recalling facts, revealing that specific components within middle layers show strong causal effects at the last token of the subject, while the causal effect of intervening on later layers is most pronounced at the last token of the prompt, matching previous findings on autoregressive transformers. Second, we show that rank-one model editing methods can successfully insert facts at specific locations, again resembling findings on transformer models. Third, we examine the linearity of Mamba’s representations of factual relations. Finally we adapt attention-knockout techniques to Mamba to dissect information flow during factual recall. We compare Mamba directly to a similar-sized transformer and conclude that despite significant differences in architectural approach, when it comes to factual recall, the two architectures share many similarities.

arxiv情報

著者 Arnab Sen Sharma,David Atkinson,David Bau
発行日 2024-04-04 17:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク