要約
大規模な言語モデルの知識を効率的に修正する知識編集は、大きな注目を集めている。現在のベンチマークは、主にマルチホップ質問応答を用いて、新たに注入または更新された知識を評価・分析している。しかし、これらのベンチマークは、更新されたモデルが実際のシナリオにおいて知識をどの程度適用しているかを効果的に評価することができない。このギャップを埋めるために、我々は新しいベンチマークCOMPKE: Complex Question Answering under Knowledge Editingを導入する。このベンチマークには、実際の状況を反映した11,924の複雑な質問が含まれている。我々はCOMPKE上で4つの知識編集手法の広範な評価を行い、その有効性がモデルによって著しく異なることを明らかにした。例えば、MeLLoはGPT-4O-MINIで39.47の精度を達成したが、QWEN2.5-3Bでは3.83まで急激に低下した。我々はさらに、これらの格差の根本的な原因を、方法論とモデル固有の観点の両方から調査する。データセットはhttps://github.com/kzjkzj666/CompKE。
要約(オリジナル)
Knowledge Editing, which efficiently modifies the knowledge in large language models, has gathered great attention. Current benchmarks primarily use multi-hop question answering to assess and analyze newly injected or updated knowledge. However, we argue that these benchmarks fail to effectively evaluate how well the updated models apply this knowledge in real-life scenarios, particularly when questions require complex reasoning, involving one-to-many relationships or multi-step logical intersections. To fill in this gap, we introduce a new benchmark, COMPKE: Complex Question Answering under Knowledge Editing, which includes 11,924 complex questions that reflect real-life situations. We conduct an extensive evaluation of four knowledge editing methods on COMPKE, revealing that their effectiveness varies notably across different models. For instance, MeLLo attains an accuracy of 39.47 on GPT-4O-MINI, but this drops sharply to 3.83 on QWEN2.5-3B. We further investigate the underlying causes of these disparities from both methodological and model-specific perspectives. The datasets are available at https://github.com/kzjkzj666/CompKE.
arxiv情報
著者 | Keyuan Cheng,Zijian Kan,Zhixian He,Zhuoran Zhang,Muhammad Asif Ali,Ke Xu,Lijie Hu,Di Wang |
発行日 | 2025-06-03 16:03:55+00:00 |
arxivサイト | arxiv_id(pdf) |