Zero-Resource Hallucination Prevention for Large Language Models

要約

さまざまな分野で大規模言語モデル (LLM) が広く使用されているため、LLM が事実に基づいて不正確な情報や根拠のない情報を生成する事例を指す「幻覚」の問題に注目が集まっています。
言語アシスタントにおける幻覚検出のための既存の技術は、複雑であいまいな特定の自由言語ベースの思考連鎖 (CoT) 技術またはパラメータベースの方法に依存しており、解釈可能性の問題があります。
さらに、生成後に幻覚を特定する方法では、幻覚の発生を防ぐことができず、指導形式やモデルのスタイルの影響によりパフォーマンスに一貫性がないという問題がありました。
この論文では、SELF-FAMILIARITY と呼ばれる新しい検出前自己評価手法を紹介します。この手法は、入力命令に存在する概念に対するモデルの習熟度を評価し、なじみのない概念の場合には応答の生成を保留することに焦点を当てています。
このアプローチは、馴染みのない話題に対して反応を控える人間の能力を模倣し、幻覚を軽減します。
私たちは 4 つの異なる大規模言語モデルにわたって SELF-FAMILIARITY を検証し、既存の手法と比較して一貫して優れたパフォーマンスを実証します。
私たちの発見は、LLMアシスタントの幻覚軽減のための先制戦略への大幅な移行を示唆しており、信頼性、適用性、解釈可能性の向上が期待できます。

要約(オリジナル)

The prevalent use of large language models (LLMs) in various domains has drawn attention to the issue of ‘hallucination,’ which refers to instances where LLMs generate factually inaccurate or ungrounded information. Existing techniques for hallucination detection in language assistants rely on intricate fuzzy, specific free-language-based chain of thought (CoT) techniques or parameter-based methods that suffer from interpretability issues. Additionally, the methods that identify hallucinations post-generation could not prevent their occurrence and suffer from inconsistent performance due to the influence of the instruction format and model style. In this paper, we introduce a novel pre-detection self-evaluation technique, referred to as SELF-FAMILIARITY, which focuses on evaluating the model’s familiarity with the concepts present in the input instruction and withholding the generation of response in case of unfamiliar concepts. This approach emulates the human ability to refrain from responding to unfamiliar topics, thus reducing hallucinations. We validate SELF-FAMILIARITY across four different large language models, demonstrating consistently superior performance compared to existing techniques. Our findings propose a significant shift towards preemptive strategies for hallucination mitigation in LLM assistants, promising improvements in reliability, applicability, and interpretability.

arxiv情報

著者 Junyu Luo,Cao Xiao,Fenglong Ma
発行日 2023-09-12 13:34:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク