SUMIE: A Synthetic Benchmark for Incremental Entity Summarization

要約

言語モデルがエンティティの概要をどの程度段階的に更新できるかを適切にテストしている既存のデータセットはありません。これは、これらのモデルが急速に進歩するにつれて重要な機能です。
Incremental Entity Summarization (IES) タスクは、正確な最新の知識を維持するために不可欠です。
これに対処するために、現実世界の IES の課題を明らかにするために設計された完全合成データセットである SUMIE を導入します。
このデータセットは、不正確なエンティティの関連付けや不完全な情報表示などの問題を効果的に強調します。
一般的な合成データセットとは異なり、私たちのデータセットは、現実世界のデータに見られる複雑さと微妙なニュアンスを捉えています。
有益で多様な属性、要約、非構造化段落を順番に生成し、高品質を保証します。
生成された要約と段落間の整合性は 96% を超えており、データセットの品質が確認されています。
広範な実験により、データセットの難しさが実証されています。最先端の LLM は、F1 が 80.4% を超える概要を更新するのに苦労しています。
コミュニティが IES タスクを進めるのを支援するために、ベンチマークと評価指標をオープンソース化します。

要約(オリジナル)

No existing dataset adequately tests how well language models can incrementally update entity summaries – a crucial ability as these models rapidly advance. The Incremental Entity Summarization (IES) task is vital for maintaining accurate, up-to-date knowledge. To address this, we introduce SUMIE, a fully synthetic dataset designed to expose real-world IES challenges. This dataset effectively highlights problems like incorrect entity association and incomplete information presentation. Unlike common synthetic datasets, ours captures the complexity and nuances found in real-world data. We generate informative and diverse attributes, summaries, and unstructured paragraphs in sequence, ensuring high quality. The alignment between generated summaries and paragraphs exceeds 96%, confirming the dataset’s quality. Extensive experiments demonstrate the dataset’s difficulty – state-of-the-art LLMs struggle to update summaries with an F1 higher than 80.4%. We will open source the benchmark and the evaluation metrics to help the community make progress on IES tasks.

arxiv情報

著者 Eunjeong Hwang,Yichao Zhou,Beliz Gunel,James Bradley Wendt,Sandeep Tata
発行日 2024-06-07 16:49:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク