DefAn: Definitive Answer Dataset for LLMs Hallucination Evaluation

要約

大規模言語モデル (LLM) は驚くべき機能を実証し、日常生活のアプリケーションにおける AI の統合に革命をもたらしました。
しかし、彼らは幻覚を起こしやすく、確立された事実に反する主張をしたり、プロンプトから逸脱したり、同じプロンプトが複数回提示されたときに一貫性のない反応を示したりする傾向があります。
包括的で簡単に評価できるベンチマーク データセットが不足しているため、これらの問題に対処することは困難です。
既存のデータセットのほとんどは小さく、多肢選択の質問に依存しているため、LLM の生成能力を評価するには不十分です。
LLM の幻覚を測定するために、この論文では、8 つのドメインにわたる 75,000 以上のプロンプトで構成される包括的なベンチマーク データセットを紹介します。
これらのプロンプトは、明確かつ簡潔で有益な回答を引き出すように設計されています。
データセットは 2 つのセグメントに分割されています。1 つは LLM パフォーマンスのテストと評価用に公開されており、もう 1 つはさまざまな LLM のベンチマーク用に非表示にされています。
私たちの実験では、GPT-3.5、LLama 2、LLama 3、Gemini、Mixtral、Zephyr の 6 つの LLM をテストしました。その結果、事実上の幻覚全体が公開データセットでは 59% ~ 82%、公開データセットでは 57% ~ 76% の範囲であることが明らかになりました。
隠れたベンチマーク。
即時位置ずれ幻覚は、公開データセットでは 6% ~ 95%、非表示データセットでは 17% ~ 94% の範囲にあります。
平均一貫性はそれぞれ 21% ~ 61% と 22% ~ 63% の範囲です。
ドメインごとの分析では、LLM のパフォーマンスは、人物、場所、日付のクエリでは適度に実行される一方で、特定の数値情報を要求されると大幅に低下することが示されています。
私たちのデータセットはその有効性を実証し、LLM パフォーマンス評価の包括的なベンチマークとして機能します。
データセットと LLM の応答は、\href{https://github.com/asekiut/DefAn}{https://github.com/asekiut/DefAn} で入手できます。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capabilities, revolutionizing the integration of AI in daily life applications. However, they are prone to hallucinations, generating claims that contradict established facts, deviating from prompts, and producing inconsistent responses when the same prompt is presented multiple times. Addressing these issues is challenging due to the lack of comprehensive and easily assessable benchmark datasets. Most existing datasets are small and rely on multiple-choice questions, which are inadequate for evaluating the generative prowess of LLMs. To measure hallucination in LLMs, this paper introduces a comprehensive benchmark dataset comprising over 75,000 prompts across eight domains. These prompts are designed to elicit definitive, concise, and informative answers. The dataset is divided into two segments: one publicly available for testing and assessing LLM performance and a hidden segment for benchmarking various LLMs. In our experiments, we tested six LLMs-GPT-3.5, LLama 2, LLama 3, Gemini, Mixtral, and Zephyr-revealing that overall factual hallucination ranges from 59% to 82% on the public dataset and 57% to 76% in the hidden benchmark. Prompt misalignment hallucination ranges from 6% to 95% in the public dataset and 17% to 94% in the hidden counterpart. Average consistency ranges from 21% to 61% and 22% to 63%, respectively. Domain-wise analysis shows that LLM performance significantly deteriorates when asked for specific numeric information while performing moderately with person, location, and date queries. Our dataset demonstrates its efficacy and serves as a comprehensive benchmark for LLM performance evaluation. Our dataset and LLMs responses are available at \href{https://github.com/ashikiut/DefAn}{https://github.com/ashikiut/DefAn}.

arxiv情報

著者 A B M Ashikur Rahman,Saeed Anwar,Muhammad Usman,Ajmal Mian
発行日 2024-06-13 14:18:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク