要約
ナレッジ編集は、大規模言語モデル (LLM) の知識を更新して、それらが古くならないようにすることを目的としています。
既存の研究では、事実知識の 3 つのレベルで LLM を編集します。
ただし、現実世界における自然な知識の更新は、事実の三つ組の直接的な変化ではなく、新しいイベントの発生によってもたらされます。
この論文では、新しいタスク設定であるイベントレベルの知識編集を提案します。これは、新しいイベントを LLM に直接編集し、(1) 効率に関して従来のトリプレットレベルの編集を改善します。
単一のイベント編集により、複数の関連知識トリプレットが更新されます。
(2) 完全性。
イベントレベルの編集では、事実の知識を更新するだけでなく、イベントの影響を考慮し、将来の傾向についての LLM の知識を更新する必要もあります。
私たちは、1,515 件のイベント編集、事実知識に関する 6,449 件の質問、および将来の傾向に関する 10,150 件の質問で構成される、高品質のイベントレベル編集ベンチマーク ELKEN を構築します。
このベンチマークでは、さまざまなナレッジ編集手法と LLM のパフォーマンスを体系的に評価します。
ELKEN が既存の知識編集アプローチに重大な課題を投げかけていることがわかりました。
私たちのコードとデータセットは、さらなる研究を促進するために一般に公開されています。
要約(オリジナル)
Knowledge editing aims at updating knowledge of large language models (LLMs) to prevent them from becoming outdated. Existing work edits LLMs at the level of factual knowledge triplets. However, natural knowledge updates in the real world come from the occurrences of new events rather than direct changes in factual triplets. In this paper, we propose a new task setting: event-level knowledge editing, which directly edits new events into LLMs and improves over conventional triplet-level editing on (1) Efficiency. A single event edit leads to updates in multiple entailed knowledge triplets. (2) Completeness. Beyond updating factual knowledge, event-level editing also requires considering the event influences and updating LLMs’ knowledge about future trends. We construct a high-quality event-level editing benchmark ELKEN, consisting of 1,515 event edits, 6,449 questions about factual knowledge, and 10,150 questions about future tendencies. We systematically evaluate the performance of various knowledge editing methods and LLMs on this benchmark. We find that ELKEN poses significant challenges to existing knowledge editing approaches. Our codes and dataset are publicly released to facilitate further research.
arxiv情報
著者 | Hao Peng,Xiaozhi Wang,Chunyang Li,Kaisheng Zeng,Jiangshan Duo,Yixin Cao,Lei Hou,Juanzi Li |
発行日 | 2024-02-20 15:36:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google