Factored Verification: Detecting and Reducing Hallucination in Summaries of Academic Papers

要約

幻覚は最先端の LLM さえも悩ませます。しかし、学術論文を要約する場合、幻覚は実際どの程度悪影響を及ぼしますか?
私たちは、抽象的な要約で幻覚を検出するための簡単な自動化手法であるファクタリング検証を評価します。
このメソッドは、HaluEval ベンチマークの要約タスクで幻覚検出に関する新しい SotA を設定し、76.2% の精度を達成します。
次に、この方法を使用して、複数の学術論文を要約するときに言語モデルが幻覚を起こす頻度を推定し、平均的な ChatGPT (16k) 要約で幻覚が 0.62、GPT-4 で 0.84、Claude 2 で 1.55 であることがわかりました。モデルに自己修正を依頼します。
Factored Critiques を使用すると、幻覚の数が ChatGPT では 0.49、GPT-4 では 0.46、Claude 2 では 0.95 に減少することがわかりました。発見された幻覚は微妙なことが多いため、学術論文の合成にモデルを使用する場合は注意することをお勧めします。

要約(オリジナル)

Hallucination plagues even frontier LLMs–but how bad is it really for summarizing academic papers? We evaluate Factored Verification, a simple automated method for detecting hallucinations in abstractive summaries. This method sets a new SotA on hallucination detection in the summarization task of the HaluEval benchmark, achieving 76.2% accuracy. We then use this method to estimate how often language models hallucinate when summarizing across multiple academic papers and find 0.62 hallucinations in the average ChatGPT (16k) summary, 0.84 for GPT-4, and 1.55 for Claude 2. We ask models to self-correct using Factored Critiques and find that this lowers the number of hallucinations to 0.49 for ChatGPT, 0.46 for GPT-4, and 0.95 for Claude 2. The hallucinations we find are often subtle, so we advise caution when using models to synthesize academic papers.

arxiv情報

著者 Charlie George,Andreas Stuhlmüller
発行日 2023-10-16 17:51:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク