Unveiling the Pitfalls of Knowledge Editing for Large Language Models

要約

大規模言語モデル (LLM) の微調整に関連するコストが上昇し続ける中、最近の研究努力は、LLM に埋め込まれた暗黙的知識を編集する方法論の開発に重点を置いています。
しかし、依然として暗雲が立ち込めています。知識の編集はバタフライ効果を引き起こすのでしょうか?
なぜなら、ナレッジ編集が潜在的なリスクをもたらす副作用を引き起こすかどうかはまだ不明だからです。
この論文は、LLM の知識編集に関連する潜在的な落とし穴についての調査の先駆者です。
これを達成するために、私たちは新しいベンチマーク データセットを導入し、革新的な評価指標を提案します。
私たちの結果は、2 つの重要な懸念を強調しています。 (1) 知識の矛盾: 論理的に衝突する事実のグループを編集すると、LLM に固有の矛盾が拡大する可能性があります。これは、以前の方法では無視されていた側面です。
(2) 知識の歪み: 事実の知識を編集する目的でパラメータを変更すると、LLM の固有の知識構造が取り返しのつかないほど歪む可能性があります。
実験結果は、ナレッジ編集が LLM に意図しない結果の影をうっかり落としてしまう可能性があることを鮮明に示しており、今後の研究に向けた注意と努力が必要です。
コードとデータは https://github.com/zjunlp/PitfallsKnowledgeEditing で入手できます。

要約(オリジナル)

As the cost associated with fine-tuning Large Language Models (LLMs) continues to rise, recent research efforts have pivoted towards developing methodologies to edit implicit knowledge embedded within LLMs. Yet, there’s still a dark cloud lingering overhead — will knowledge editing trigger butterfly effect? since it is still unclear whether knowledge editing might introduce side effects that pose potential risks or not. This paper pioneers the investigation into the potential pitfalls associated with knowledge editing for LLMs. To achieve this, we introduce new benchmark datasets and propose innovative evaluation metrics. Our results underline two pivotal concerns: (1) Knowledge Conflict: Editing groups of facts that logically clash can magnify the inherent inconsistencies in LLMs-a facet neglected by previous methods. (2) Knowledge Distortion: Altering parameters with the aim of editing factual knowledge can irrevocably warp the innate knowledge structure of LLMs. Experimental results vividly demonstrate that knowledge editing might inadvertently cast a shadow of unintended consequences on LLMs, which warrant attention and efforts for future works. Code and data are available at https://github.com/zjunlp/PitfallsKnowledgeEditing.

arxiv情報

著者 Zhoubo Li,Ningyu Zhang,Yunzhi Yao,Mengru Wang,Xi Chen,Huajun Chen
発行日 2024-03-26 14:38:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.DB, cs.LG パーマリンク