NarraSum: A Large-Scale Dataset for Abstractive Narrative Summarization

要約

物語の要約は、最も顕著な出来事や登場人物を説明するために、物語の蒸留されたバージョンを作成することを目的としています。
物語を要約することは、出来事の因果関係と登場人物の行動を理解する必要があるため、困難です。
この方向の研究を促進するために、私たちは大規模な物語要約データセットである NarraSum を提案します。
これには、さまざまなジャンルの映画やテレビ エピソードのあらすじ説明と、それに対応する抽象的な要約から収集された 122,000 の物語文書が含まれています。
実験によれば、人間と NarraSum の最先端の要約モデルとの間には大きなパフォーマンスのギャップがあることが示されています。
私たちは、このデータセットが要約に関する将来の研究や、自然言語の理解と生成に関する広範な研究を促進することを願っています。
データセットは https://github.com/zhaochaocs/narrasum で入手できます。

要約(オリジナル)

Narrative summarization aims to produce a distilled version of a narrative to describe its most salient events and characters. Summarizing a narrative is challenging as it requires an understanding of event causality and character behaviors. To encourage research in this direction, we propose NarraSum, a large-scale narrative summarization dataset. It contains 122K narrative documents, which are collected from plot descriptions of movies and TV episodes with diverse genres, and their corresponding abstractive summaries. Experiments show that there is a large performance gap between humans and the state-of-the-art summarization models on NarraSum. We hope that this dataset will promote future research in summarization, as well as broader studies of natural language understanding and generation. The dataset is available at https://github.com/zhaochaocs/narrasum.

arxiv情報

著者 Chao Zhao,Faeze Brahman,Kaiqiang Song,Wenlin Yao,Dian Yu,Snigdha Chaturvedi
発行日 2023-06-28 04:08:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク