Does Localization Inform Editing? Surprising Differences in Causality-Based Localization vs. Knowledge Editing in Language Models

要約

言語モデルは、事前トレーニング中に大量の事実情報を学習し、最近の研究では、この情報を中間層の MLP 重みなどの特定のモデルの重みにローカライズしています。
この論文では、既存の方法でファクトが保存されると示唆される場所とは異なる場所にある重みを編集することで、ファクトがモデルに保存される方法を変更できることがわかりました。
これは驚くべきことです。なぜなら、ファクトを特定のモデル パラメーターにローカライズすることで、モデル内の知識を操作する場所がわかると予想しており、この仮定がモデル編集方法に関する過去の研究の動機となってきたからです。
具体的には、表現ノイズ除去 (因果追跡とも呼ばれます) からのローカリゼーションの結論は、保存されている既存のファクトを新しいファクトでオーバーライドするためにどのモデル MLP 層を編集するのが最適であるかについての洞察を提供しないことを示します。
この発見は、過去の研究が編集するモデル レイヤーを選択するためにどのように因果追跡に依存していたのかという疑問を引き起こします。
次に、事実の消去や増幅など、編集問題のいくつかの変形例を検討します。
編集上の問題の 1 つは、編集パフォーマンスが表現ノイズ除去によるローカリゼーション結果に関連していることですが、どのレイヤーを編集するかがパフォーマンスの予測にはるかに優れていることがわかりました。
私たちの結果は、直観に反して、事前トレーニングされた言語モデルがどのように機能するかについてのメカニズムの理解を深めても、その動作を最適に変更する方法についての洞察に必ずしもつながるとは限らないことを示唆しています。
私たちのコードは https://github.com/google/belief-localization で入手できます。

要約(オリジナル)

Language models learn a great quantity of factual information during pretraining, and recent work localizes this information to specific model weights like mid-layer MLP weights. In this paper, we find that we can change how a fact is stored in a model by editing weights that are in a different location than where existing methods suggest that the fact is stored. This is surprising because we would expect that localizing facts to specific model parameters would tell us where to manipulate knowledge in models, and this assumption has motivated past work on model editing methods. Specifically, we show that localization conclusions from representation denoising (also known as Causal Tracing) do not provide any insight into which model MLP layer would be best to edit in order to override an existing stored fact with a new one. This finding raises questions about how past work relies on Causal Tracing to select which model layers to edit. Next, we consider several variants of the editing problem, including erasing and amplifying facts. For one of our editing problems, editing performance does relate to localization results from representation denoising, but we find that which layer we edit is a far better predictor of performance. Our results suggest, counterintuitively, that better mechanistic understanding of how pretrained language models work may not always translate to insights about how to best change their behavior. Our code is available at https://github.com/google/belief-localization

arxiv情報

著者 Peter Hase,Mohit Bansal,Been Kim,Asma Ghandeharioun
発行日 2023-10-16 17:42:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク