要約
大規模言語モデル (LLM) の最近の進歩により、要約システムの機能が大幅に進歩しました。
しかし、彼らは依然として幻覚についての懸念に直面している。
これまでの研究ではニュース分野で LLM が広範囲に評価されてきましたが、対話要約の評価のほとんどは BART ベースのモデルに焦点を当てており、その忠実性についての理解にはギャップが残されていました。
私たちの作業では、人間による注釈を使用し、スパンレベルの不一致の特定と分類に焦点を当てて、対話の要約における LLM の忠実性をベンチマークします。
具体的には、GPT-4 と Alpaca-13B という 2 つの著名な LLM に焦点を当てます。
私たちの評価では、幻覚を構成するものについての微妙な点が明らかになりました。LLM は、直接的な証拠に欠ける、会話の状況証拠に裏付けられたもっともらしい推論を生成することがよくありますが、このパターンは古いモデルではあまり一般的ではありません。
私たちは、エラーの洗練された分類法を提案し、これらの LLM 動作を分類してデータセットを公開するために「状況推論」というカテゴリを作成しました。
私たちの分類法を使用して、LLM と古い微調整モデルの間の動作の違いを比較します。
さらに、LLM サマリーに対する自動エラー検出方法の有効性を体系的に評価したところ、これらの微妙なエラーを検出するのが難しいことがわかりました。
これに対処するために、特に「状況推論」の特定において、既存のメトリクスを上回る、きめ細かいエラー検出のための 2 つのプロンプトベースのアプローチを導入します。
要約(オリジナル)
Recent advancements in large language models (LLMs) have considerably advanced the capabilities of summarization systems. However, they continue to face concerns about hallucinations. While prior work has evaluated LLMs extensively in news domains, most evaluation of dialogue summarization has focused on BART-based models, leaving a gap in our understanding of their faithfulness. Our work benchmarks the faithfulness of LLMs for dialogue summarization, using human annotations and focusing on identifying and categorizing span-level inconsistencies. Specifically, we focus on two prominent LLMs: GPT-4 and Alpaca-13B. Our evaluation reveals subtleties as to what constitutes a hallucination: LLMs often generate plausible inferences, supported by circumstantial evidence in the conversation, that lack direct evidence, a pattern that is less prevalent in older models. We propose a refined taxonomy of errors, coining the category of ‘Circumstantial Inference’ to bucket these LLM behaviors and release the dataset. Using our taxonomy, we compare the behavioral differences between LLMs and older fine-tuned models. Additionally, we systematically assess the efficacy of automatic error detection methods on LLM summaries and find that they struggle to detect these nuanced errors. To address this, we introduce two prompt-based approaches for fine-grained error detection that outperform existing metrics, particularly for identifying ‘Circumstantial Inference.’
arxiv情報
| 著者 | Sanjana Ramprasad,Elisa Ferracane,Zachary C. Lipton |
| 発行日 | 2024-06-05 17:49:47+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google