Can Knowledge Editing Really Correct Hallucinations?

要約

大規模言語モデル (LLM) は、タスク全体にわたって優れた能力があるにもかかわらず、生成されたコンテンツ内の非事実情報を参照する幻覚に悩まされます。
一方、知識編集は、LLM にエンコードされた誤った事実知識を修正するための新たな人気パラダイムとして開発され、ゼロからの再トレーニングを回避できるという利点があります。
ただし、ナレッジ編集用の既存の評価データセットに共通する問題の 1 つは、編集前に LLM が評価の質問に対して幻覚的な回答を実際に生成することが保証されていないことです。
さまざまな技術によって編集された後、そのようなデータセットで LLM が評価される場合、幻覚の矯正におけるさまざまな知識編集方法の有効性を評価するためにパフォーマンスを直接採用することは困難です。
したがって、知識編集は本当に LLM の幻覚を矯正できるのかという基本的な疑問は十分に検証されていないままです。
私たちは、現実世界の幻覚を修正する際の知識編集方法を総合的にベンチマークするために HalluEditBench を提案しました。
まず、9 つのドメイン、26 のトピック、および 6,000 を超える幻覚を含む大規模な幻覚データセットを厳密に構築します。
次に、有効性、一般化、移植性、局所性、堅牢性を含む 5 つの側面で、知識編集手法のパフォーマンスを総合的に評価します。
HalluEditBench を通じて、私たちは幻覚矯正におけるさまざまな知識編集方法の可能性と限界について新たな洞察を提供してきました。これにより、将来の改善が促され、知識編集分野の進歩が促進される可能性があります。

要約(オリジナル)

Large Language Models (LLMs) suffer from hallucinations, referring to the non-factual information in generated content, despite their superior capacities across tasks. Meanwhile, knowledge editing has been developed as a new popular paradigm to correct the erroneous factual knowledge encoded in LLMs with the advantage of avoiding retraining from scratch. However, one common issue of existing evaluation datasets for knowledge editing is that they do not ensure LLMs actually generate hallucinated answers to the evaluation questions before editing. When LLMs are evaluated on such datasets after being edited by different techniques, it is hard to directly adopt the performance to assess the effectiveness of different knowledge editing methods in correcting hallucinations. Thus, the fundamental question remains insufficiently validated: Can knowledge editing really correct hallucinations in LLMs? We proposed HalluEditBench to holistically benchmark knowledge editing methods in correcting real-world hallucinations. First, we rigorously construct a massive hallucination dataset with 9 domains, 26 topics and more than 6,000 hallucinations. Then, we assess the performance of knowledge editing methods in a holistic way on five dimensions including Efficacy, Generalization, Portability, Locality, and Robustness. Through HalluEditBench, we have provided new insights into the potentials and limitations of different knowledge editing methods in correcting hallucinations, which could inspire future improvements and facilitate the progress in the field of knowledge editing.

arxiv情報

著者 Baixiang Huang,Canyu Chen,Xiongxiao Xu,Ali Payani,Kai Shu
発行日 2024-10-21 17:55:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク