SWEA: Changing Factual Knowledge in Large Language Models via Subject Word Embedding Altering

要約

モデル編集は最近広く注目を集めています。
現在のモデル編集方法では、主にモデル パラメーターを変更するか、既存のモデルにモジュールを追加します。
ただし、前者は LLM に不可逆的な損傷を引き起こし、後者は追加の推論オーバーヘッドを招き、ファジー ベクトル マッチングは常に信頼できるとは限りません。
これらの問題に対処するために、我々は拡張可能な Subject Word Embedding Altering (SWEA) フレームワークを提案します。これは、主題の表現を変更し、推論段階で知識を編集するという目標を達成します。
SWEA は、モデルの外部で正確なキー マッチングを使用し、信頼性の高い主語の埋め込み変更を実行するため、推論のオーバーヘッドを増やすことなくモデルの元の重みを保護します。
次に、最初に編集対象の埋め込みベクトルを最適化し、次に知識埋め込み次元 (KED) を抑制して最終的な融合埋め込みを取得する、最適化してから抑制する融合手法を提案します。
したがって、LLM の事実知識を編集するための SWEAOS 手法を提案します。
COUNTERFACT および zsRE データセット上で SWEAOS の最先端のパフォーマンスを実証します。
知識の編集における SWEAOS の推論能力をさらに検証するために、より複雑な RIPPLEEDITS ベンチマークで SWEAOS を評価します。
2 つのサブデータセットの結果は、SWEAOS が最先端の推論能力を備えていることを示しています。

要約(オリジナル)

Model editing has recently gained widespread attention. Current model editing methods primarily involve modifying model parameters or adding additional modules to the existing model. However, the former causes irreversible damage to LLMs, while the latter incurs additional inference overhead and fuzzy vector matching is not always reliable. To address these issues, we propose an expandable Subject Word Embedding Altering (SWEA) framework, which modifies the representation of subjects and achieve the goal of editing knowledge during the inference stage. SWEA uses precise key matching outside the model and performs reliable subject word embedding altering, thus protecting the original weights of the model without increasing inference overhead. We then propose optimizing then suppressing fusion method, which first optimizes the embedding vector for the editing target and then suppresses the Knowledge Embedding Dimension (KED) to obtain the final fused embedding. We thus propose SWEAOS method for editing factual knowledge in LLMs. We demonstrate the state-of-the-art performance of SWEAOS on the COUNTERFACT and zsRE datasets. To further validate the reasoning ability of SWEAOS in editing knowledge, we evaluate it on the more complex RIPPLEEDITS benchmark. The results on two subdatasets demonstrate that our SWEAOS possesses state-of-the-art reasoning ability.

arxiv情報

著者 Xiaopeng Li,Shasha Li,Bin Ji,Shezheng Song,Xi Wang,Jun Ma,Jie Yu,Xiaodong Liu,Jing Wang,Weimin Zhang
発行日 2024-01-31 13:08:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク