Can Knowledge Editing Really Correct Hallucinations?

要約

大規模言語モデル(LLM)は、その優れた能力にもかかわらず、生成されたコンテンツに含まれる非事実情報を指す幻覚に悩まされている。一方、知識編集は、LLMにエンコードされた誤った事実知識を修正するための新しい一般的なパラダイムとして開発されており、ゼロからの再トレーニングを回避できるという利点がある。しかし、知識編集のための既存の評価データセットに共通する問題は、編集前にLLMが評価質問に対して実際に幻覚のような答えを生成していることを保証していないことである。異なる手法で編集されたLLMをこのようなデータセットで評価する場合、幻覚を修正するための異なる知識編集手法の有効性を評価するために性能を直接採用することは難しい。従って、根本的な疑問はまだ十分に検証されていない:知識編集は本当にLLMの幻覚を修正できるのか?我々は、現実世界の幻覚を修正する知識編集法を総合的にベンチマークするHalluEditBenchを提案した。まず、9つのドメイン、26のトピック、6,000以上の幻覚からなる膨大な幻覚データセットを厳密に構築する。次に、知識編集手法の性能を、有効性、汎用性、移植性、局所性、頑健性の5つの側面から総合的に評価する。HalluEditBenchを通じて、幻覚訂正における様々な知識編集手法の可能性と限界に関する新たな洞察を提供し、将来の改良を促し、知識編集分野の進歩を促進することができた。

要約(オリジナル)

Large Language Models (LLMs) suffer from hallucinations, referring to the non-factual information in generated content, despite their superior capacities across tasks. Meanwhile, knowledge editing has been developed as a new popular paradigm to correct erroneous factual knowledge encoded in LLMs with the advantage of avoiding retraining from scratch. However, a common issue of existing evaluation datasets for knowledge editing is that they do not ensure that LLMs actually generate hallucinated answers to the evaluation questions before editing. When LLMs are evaluated on such datasets after being edited by different techniques, it is hard to directly adopt the performance to assess the effectiveness of different knowledge editing methods in correcting hallucinations. Thus, the fundamental question remains insufficiently validated: Can knowledge editing really correct hallucinations in LLMs? We proposed HalluEditBench to holistically benchmark knowledge editing methods in correcting real-world hallucinations. First, we rigorously construct a massive hallucination dataset with 9 domains, 26 topics and more than 6,000 hallucinations. Then, we assess the performance of knowledge editing methods in a holistic way on five dimensions including Efficacy, Generalization, Portability, Locality, and Robustness. Through HalluEditBench, we have provided new insights into the potentials and limitations of different knowledge editing methods in correcting hallucinations, which could inspire future improvements and facilitate progress in the field of knowledge editing.

arxiv情報

著者 Baixiang Huang,Canyu Chen,Xiongxiao Xu,Ali Payani,Kai Shu
発行日 2025-03-03 15:37:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク