要約
単一ドキュメントのニュース要約では、事実の一貫性または幻覚の評価に関する研究により、近年、忠実性に関して大幅な進歩が見られます。
これらの進歩が他のテキスト要約分野にも引き継がれるかどうかを尋ねます。
さまざまな規模の LLM によって生成される、トピックに焦点を当てた対話の要約に関する新しい評価ベンチマークを提案します。
これらの要約の事実の一貫性に関するバイナリ文レベルの人による注釈と、事実に矛盾する文の詳細な説明を提供します。
私たちの分析によると、既存の LLM は、モデルのサイズに関係なく、対話領域でかなりの量の事実誤認を幻覚することがわかりました。
一方で、GPT-4 を含む LLM がバイナリの事実評価として機能する場合、そのパフォーマンスは低く、普及している最先端の特殊な事実評価指標のパフォーマンスを上回る可能性があります。
最後に、厳選されたエラー分類法を使用して幻覚の種類の分析を実施しました。
モデルで生成された要約には多様なエラーとエラーの分布が存在し、非 LLM ベースのメトリクスは LLM ベースの評価器よりもすべてのエラー タイプをより適切に捕捉できることがわかりました。
要約(オリジナル)
Single document news summarization has seen substantial progress on faithfulness in recent years, driven by research on the evaluation of factual consistency, or hallucinations. We ask whether these advances carry over to other text summarization domains. We propose a new evaluation benchmark on topic-focused dialogue summarization, generated by LLMs of varying sizes. We provide binary sentence-level human annotations of the factual consistency of these summaries along with detailed explanations of factually inconsistent sentences. Our analysis shows that existing LLMs hallucinate significant amounts of factual errors in the dialogue domain, regardless of the model’s size. On the other hand, when LLMs, including GPT-4, serve as binary factual evaluators, they perform poorly and can be outperformed by prevailing state-of-the-art specialized factuality evaluation metrics. Finally, we conducted an analysis of hallucination types with a curated error taxonomy. We find that there are diverse errors and error distributions in model-generated summaries and that non-LLM based metrics can capture all error types better than LLM-based evaluators.
arxiv情報
著者 | Liyan Tang,Igor Shalyminov,Amy Wing-mei Wong,Jon Burnsky,Jake W. Vincent,Yu’an Yang,Siffi Singh,Song Feng,Hwanjun Song,Hang Su,Lijia Sun,Yi Zhang,Saab Mansour,Kathleen McKeown |
発行日 | 2024-03-31 15:30:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google