AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models

要約

大規模な言語モデル(LLM)は、しばしば誤った知識または時代遅れの知識のために幻覚を示します。
したがって、ターゲットを絞った知識の更新を可能にするために、モデル編集方法が登場しました。
これを達成するために、一般的なパラダイムは、最初に影響力のあるパラメーターを見つけてから、摂動を導入してそれらを編集する場所である編集アプローチです。
効果的ですが、現在の研究により、この摂動は、特に連続した編集シナリオで、LLM内の元々保存されていた知識を必然的に混乱させることが実証されています。
これに対処するために、パラメーターに適用する前に、保存された知識のヌル空間に摂動を投影する新しいソリューションであるAlphaeditを紹介します。
この投影により、編集後のLLMの出力が保存された知識について照会された場合、混乱の問題を軽減すると、変更されたLLMの出力が変更されないことを理論的に証明します。
LLAMA3、GPT2-XL、GPT-Jを含むさまざまなLLMに関する広範な実験は、Alphaeditが投影のみの追加コードを1行で追加コードで、最も位置付けた編集方法のパフォーマンスを平均36.4%増加させることを示しています。
私たちのコードは、https://github.com/jianghoucheng/alphaeditで入手できます。

要約(オリジナル)

Large language models (LLMs) often exhibit hallucinations due to incorrect or outdated knowledge. Hence, model editing methods have emerged to enable targeted knowledge updates. To achieve this, a prevailing paradigm is the locating-then-editing approach, which first locates influential parameters and then edits them by introducing a perturbation. While effective, current studies have demonstrated that this perturbation inevitably disrupt the originally preserved knowledge within LLMs, especially in sequential editing scenarios. To address this, we introduce AlphaEdit, a novel solution that projects perturbation onto the null space of the preserved knowledge before applying it to the parameters. We theoretically prove that this projection ensures the output of post-edited LLMs remains unchanged when queried about the preserved knowledge, thereby mitigating the issue of disruption. Extensive experiments on various LLMs, including LLaMA3, GPT2-XL, and GPT-J, show that AlphaEdit boosts the performance of most locating-then-editing methods by an average of 36.4% with a single line of additional code for projection solely. Our code is available at: https://github.com/jianghoucheng/AlphaEdit.

arxiv情報

著者 Junfeng Fang,Houcheng Jiang,Kun Wang,Yunshan Ma,Shi Jie,Xiang Wang,Xiangnan He,Tat-seng Chua
発行日 2025-03-07 17:06:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク