STORYSUMM: Evaluating Faithfulness in Story Summarization

要約

人間の評価は、抽象的な要約に忠実さをチェックするためのゴールドスタンダードとなっています。
ただし、物語のような挑戦的なソースドメインでは、複数のアノテーターが概要が忠実であることに同意することができますが、明白なエラーである詳細が欠落していることがあります。
したがって、ローカライズされた忠実なラベルとエラーの説明を含む短編小説のLLM要約で構成される新しいデータセット、StorySummを紹介します。
このベンチマークは、評価方法のためのもので、特定の方法が困難な矛盾を検出できるかどうかをテストします。
このデータセットを使用して、最初に1つの人間の注釈プロトコルが矛盾を逃す可能性が高いことを示し、要約データセットのグラウンドトゥルースを確立する際に、さまざまな方法を追求することを提唱しています。
最終的に最近の自動メトリックをテストし、これらのいずれもこのタスクで70%を超えるバランスの取れた精度を達成していないことを発見し、忠実な評価における将来の作業の挑戦的なベンチマークであることを示しています。

要約(オリジナル)

Human evaluation has been the gold standard for checking faithfulness in abstractive summarization. However, with a challenging source domain like narrative, multiple annotators can agree a summary is faithful, while missing details that are obvious errors only once pointed out. We therefore introduce a new dataset, STORYSUMM, comprising LLM summaries of short stories with localized faithfulness labels and error explanations. This benchmark is for evaluation methods, testing whether a given method can detect challenging inconsistencies. Using this dataset, we first show that any one human annotation protocol is likely to miss inconsistencies, and we advocate for pursuing a range of methods when establishing ground truth for a summarization dataset. We finally test recent automatic metrics and find that none of them achieve more than 70% balanced accuracy on this task, demonstrating that it is a challenging benchmark for future work in faithfulness evaluation.

arxiv情報

著者 Melanie Subbiah,Faisal Ladhak,Akankshya Mishra,Griffin Adams,Lydia B. Chilton,Kathleen McKeown
発行日 2025-04-01 16:54:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク