EventSum: A Large-Scale Event-Centric Summarization Dataset for Chinese Multi-News Documents

要約

実生活では、大災害や大規模なスポーツイベントなど、多くのダイナミックな出来事が、時間の経過とともに連続的に展開する。このようなイベントの概要を把握することは、人々が状況を迅速に理解し、より効果的に対応するのに役立ちます。これは、イベントの重要な情報がしばしば複数の文書に散在し、複雑なイベント知識の理解と推論を伴うため困難であり、これまでの研究では十分に研究されていない。そこで我々は、イベント中心複数文書要約(ECS:Event-Centric Multi-Document Summarization)タスクを提案し、複数の関連ニュース文書に基づいて、与えられたイベントの簡潔で包括的な要約を生成することを目的とした。このタスクに基づき、我々はEventSumデータセットを構築した。EventSumデータセットは、Baidu Baikeのエントリーを用いて構築され、広範な人によるアノテーションが施されており、関連する研究を促進する。これは中国初の大規模な複数文書要約データセットであり、5,100のイベントと合計57,984のニュース文書を含み、イベントごとに平均11.4の入力ニュース文書と13,471文字を含む。データの品質を保証し、潜在的なデータ漏洩を軽減するため、テストセットの手動ラベル付けに多段階アノテーションアプローチを採用した。イベント関連情報の複雑さを考えると、既存のメトリクスは生成された要約の品質を包括的に評価するのに苦労する。我々は、Event Recall、Argument Recall、Causal Recall、Temporal Recallを含む特定のメトリクスを、評価のための対応する計算方法とともに設計した。このタスクにおける高度なロングコンテクスト大規模言語モデル(LLM)の性能を評価するため、EventSumで包括的な実験を行った。実験結果は以下の通りである:1)イベント中心の複数文書要約タスクは、既存のロングコンテクストLLMにとって依然として困難であること、2)我々が設計した想起メトリクスは、要約情報の網羅性を評価する上で極めて重要であること。

要約(オリジナル)

In real life, many dynamic events, such as major disasters and large-scale sports events, evolve continuously over time. Obtaining an overview of these events can help people quickly understand the situation and respond more effectively. This is challenging because the key information of the event is often scattered across multiple documents, involving complex event knowledge understanding and reasoning, which is under-explored in previous work. Therefore, we proposed the Event-Centric Multi-Document Summarization (ECS) task, which aims to generate concise and comprehensive summaries of a given event based on multiple related news documents. Based on this, we constructed the EventSum dataset, which was constructed using Baidu Baike entries and underwent extensive human annotation, to facilitate relevant research. It is the first large scale Chinese multi-document summarization dataset, containing 5,100 events and a total of 57,984 news documents, with an average of 11.4 input news documents and 13,471 characters per event. To ensure data quality and mitigate potential data leakage, we adopted a multi-stage annotation approach for manually labeling the test set. Given the complexity of event-related information, existing metrics struggle to comprehensively assess the quality of generated summaries. We designed specific metrics including Event Recall, Argument Recall, Causal Recall, and Temporal Recall along with corresponding calculation methods for evaluation. We conducted comprehensive experiments on EventSum to evaluate the performance of advanced long-context Large Language Models (LLMs) on this task. Our experimental results indicate that: 1) The event-centric multi-document summarization task remains challenging for existing long-context LLMs; 2) The recall metrics we designed are crucial for evaluating the comprehensiveness of the summary information.

arxiv情報

著者 Mengna Zhu,Kaisheng Zeng,Mao Wang,Kaiming Xiao,Lei Hou,Hongbin Huang,Juanzi Li
発行日 2025-01-03 07:18:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク