SWEA: Changing Factual Knowledge in Large Language Models via Subject Word Embedding Altering

要約

モデル編集は最近広く注目を集めています。
現在のモデル編集方法では、主にモデル パラメーターを変更するか、既存のモデルにモジュールを追加します。
ただし、前者は大規模言語モデル (LLM) に不可逆的な損傷を引き起こし、後者は追加の推論オーバーヘッドを招き、ファジー ベクトル マッチングは常に信頼できるとは限りません。
これらの問題に対処するために、拡張可能な Subject Word Embedding Altering (SWEA) フレームワークを提案します。このフレームワークは、文字レベルのキーと値のマッチングを通じて融合された埋め込みを見つけ、それを Transformer 入力の件名単語の埋め込みに追加します。
これらの融合埋め込みを取得するために、最適化してから抑制する融合手法を提案します。この方法では、最初に編集ターゲットの学習可能な埋め込みベクトルを最適化し、次に知識埋め込み次元 (KED) を抑制して、最終的な融合埋め込みを取得します。
したがって、LLM の事実知識を編集するための SWEA$\oplus$OS メソッドを提案します。
COUNTERFACT および zsRE データセット上で SWEA$\oplus$OS の全体的な最先端 (SOTA) パフォーマンスを実証します。
編集知識における SWEA$\oplus$OS の推論能力をさらに検証するために、より複雑な RippleEdits ベンチマークで評価します。
結果は、SWEA$\oplus$OS が SOTA 推論能力を備えていることを示しています。

要約(オリジナル)

Model editing has recently gained widespread attention. Current model editing methods primarily involve modifying model parameters or adding additional modules to the existing model. However, the former causes irreversible damage to Large Language Models (LLMs), while the latter incurs additional inference overhead and fuzzy vector matching is not always reliable. To address these issues, we propose an expandable Subject Word Embedding Altering (SWEA) framework, which finds the fused embeddings through character-level key-value matching and adds them to the subject word embeddings in Transformer input. To get these fused embeddings, we propose optimizing then suppressing fusion method, which first optimizes learnable embedding vectors for the editing target and then suppresses the Knowledge Embedding Dimensions (KEDs) to obtain final fused embeddings. We thus propose SWEA$\oplus$OS method for editing factual knowledge in LLMs. We demonstrate the overall state-of-the-art (SOTA) performance of SWEA$\oplus$OS on the COUNTERFACT and zsRE datasets. To further validate the reasoning ability of SWEA$\oplus$OS in editing knowledge, we evaluate it on the more complex RippleEdits benchmark. The results demonstrate that SWEA$\oplus$OS possesses SOTA reasoning ability.

arxiv情報

著者 Xiaopeng Li,Shasha Li,Shezheng Song,Huijun Liu,Bin Ji,Xi Wang,Jun Ma,Jie Yu,Xiaodong Liu,Jing Wang,Weimin Zhang
発行日 2024-02-15 15:43:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク