MovieSum: An Abstractive Summarization Dataset for Movie Screenplays

要約

映画の脚本の要約は、長い入力コンテキストと映画に特有のさまざまな要素を理解する必要があるため、困難です。
大規模な言語モデルは文書の要約において大幅な進歩を示していますが、多くの場合、長い入力コンテキストの処理に苦労します。
さらに、最近の研究ではテレビのトランスクリプトが注目を集めていますが、映画の脚本の要約についてはまだ研究が進んでいません。
この分野の研究を促進するために、映画脚本を抽象的に要約するための新しいデータセット MovieSum を紹介します。
このデータセットは、Wikipedia のあらすじ概要を伴う 2,200 の映画脚本で構成されています。
映画の脚本を手動でフォーマットして、その構造要素を表現しました。
既存のデータセットと比較して、MovieSum にはいくつかの際立った特徴があります。 (1) テレビ エピソードの脚本よりも長い映画の脚本が含まれています。
(2) 以前の映画脚本データセットの 2 倍のサイズです。
(3) 追加の外部知識へのアクセスを容易にするために、IMDb ID を含むメタデータを提供します。
また、詳細なベースラインを提供するために、データセットの要約に適用された最近リリースされた大規模な言語モデルの結果も示します。

要約(オリジナル)

Movie screenplay summarization is challenging, as it requires an understanding of long input contexts and various elements unique to movies. Large language models have shown significant advancements in document summarization, but they often struggle with processing long input contexts. Furthermore, while television transcripts have received attention in recent studies, movie screenplay summarization remains underexplored. To stimulate research in this area, we present a new dataset, MovieSum, for abstractive summarization of movie screenplays. This dataset comprises 2200 movie screenplays accompanied by their Wikipedia plot summaries. We manually formatted the movie screenplays to represent their structural elements. Compared to existing datasets, MovieSum possesses several distinctive features: (1) It includes movie screenplays, which are longer than scripts of TV episodes. (2) It is twice the size of previous movie screenplay datasets. (3) It provides metadata with IMDb IDs to facilitate access to additional external knowledge. We also show the results of recently released large language models applied to summarization on our dataset to provide a detailed baseline.

arxiv情報

著者 Rohit Saxena,Frank Keller
発行日 2024-08-12 16:43:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク