InterrogateLLM: Zero-Resource Hallucination Detection in LLM-Generated Answers

要約

大規模言語モデル (LLM) の多くの進歩とその前例のない急速な進化にもかかわらず、さまざまな理由により、その影響と日常生活のあらゆる側面への統合は限られています。
LLM の広範な採用を妨げる重大な要因の 1 つは、幻覚の発生です。LLM は、現実的に聞こえるにもかかわらず事実の真実から離れた答えを発明します。
この論文では、大規模な言語モデルで幻覚を検出するための新しい方法を紹介します。これは、現実世界のさまざまなシナリオでこれらのモデルを採用する際の重要な問題に取り組みます。
Llama-2 を含む複数のデータセットと LLM にわたる広範な評価を通じて、私たちは最近のさまざまな LLM の幻覚レベルを研究し、それらを自動的に検出する方法の有効性を実証します。
特に、特定の実験ではラマ 2 の幻覚が最大 87% 観察されており、この方法ではすべて外部知識に頼ることなく、81% のバランスの取れた精度が達成されています。

要約(オリジナル)

Despite the many advances of Large Language Models (LLMs) and their unprecedented rapid evolution, their impact and integration into every facet of our daily lives is limited due to various reasons. One critical factor hindering their widespread adoption is the occurrence of hallucinations, where LLMs invent answers that sound realistic, yet drift away from factual truth. In this paper, we present a novel method for detecting hallucinations in large language models, which tackles a critical issue in the adoption of these models in various real-world scenarios. Through extensive evaluations across multiple datasets and LLMs, including Llama-2, we study the hallucination levels of various recent LLMs and demonstrate the effectiveness of our method to automatically detect them. Notably, we observe up to 87% hallucinations for Llama-2 in a specific experiment, where our method achieves a Balanced Accuracy of 81%, all without relying on external knowledge.

arxiv情報

著者 Yakir Yehuda,Itzik Malkiel,Oren Barkan,Jonathan Weill,Royi Ronen,Noam Koenigstein
発行日 2024-08-19 07:53:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク