Knowledge Verification to Nip Hallucination in the Bud

要約

大規模言語モデル (LLM) は、人間の調整に従うさまざまなタスクにわたって優れたパフォーマンスを示していますが、依然として、もっともらしく聞こえるが事実の知識に反する応答を生成する可能性があり、これは \emph{幻覚} として知られる現象です。
この論文では、アライメント データに存在する外部知識と基盤 LLM に埋め込まれた固有の知識の間の不一致を検証し、最小限に抑えることで、幻覚を軽減できる可能性を実証します。
具体的には、知識一貫性調整 (KCA) と呼ばれる新しいアプローチを提案します。これは、適切に調整された LLM を使用して、外部知識に基づいて評価を自動的に定式化し、基盤 LLM の知識境界を評価します。
アライメント データ内の知識の不一致に対処するために、KCA はこれらのデータ インスタンスに対処するためのいくつかの具体的な戦略を実装しています。
私たちは、さまざまなバックボーンと規模の基礎 LLM を利用して、6 つのベンチマークにわたって幻覚を軽減する KCA の優れた有効性を実証します。
これにより、知識の不一致を軽減することで幻覚を軽減する効果が確認されました。
私たちのコード、モデルの重み、データは \url{https://github.com/fanqiwan/KCA} からオープンにアクセスできます。

要約(オリジナル)

While large language models (LLMs) have demonstrated exceptional performance across various tasks following human alignment, they may still generate responses that sound plausible but contradict factual knowledge, a phenomenon known as \emph{hallucination}. In this paper, we demonstrate the feasibility of mitigating hallucinations by verifying and minimizing the inconsistency between external knowledge present in the alignment data and the intrinsic knowledge embedded within foundation LLMs. Specifically, we propose a novel approach called Knowledge Consistent Alignment (KCA), which employs a well-aligned LLM to automatically formulate assessments based on external knowledge to evaluate the knowledge boundaries of foundation LLMs. To address knowledge inconsistencies in the alignment data, KCA implements several specific strategies to deal with these data instances. We demonstrate the superior efficacy of KCA in reducing hallucinations across six benchmarks, utilizing foundation LLMs of varying backbones and scales. This confirms the effectiveness of mitigating hallucinations by reducing knowledge inconsistency. Our code, model weights, and data are openly accessible at \url{https://github.com/fanqiwan/KCA}.

arxiv情報

著者 Fanqi Wan,Xinting Huang,Leyang Cui,Xiaojun Quan,Wei Bi,Shuming Shi
発行日 2024-04-16 11:00:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク