要約
映画の台本のような長い形式の物語テキストの抽象的要約は、現在の言語モデルの計算量とメモリの制約から困難である。しかし、これらのシーンのうち、物語全体を理解する上で重要なシーンはごく一部である。シーンの顕著性は、そのシーンが要約で言及されていれば顕著であるとみなすことで操作可能である。適切なデータセットがないため、顕著なシーンを自動的に識別することは困難である。本研究では、100本の映画について、人間が注釈を付けた顕著なシーンからなるシーン顕著性データセットを紹介する。我々は、まず脚本中の顕著なシーンを特定し、次にそれらのシーンのみを用いて要約を生成する、2段階の抽象的要約アプローチを提案する。QAに基づく評価を用いて、我々のモデルが、これまでの最先端の要約手法を凌駕し、映画の脚本全体を入力とするモデルよりも、映画の情報内容をより正確に反映することを示す。
要約(オリジナル)
Abstractive summarization for long-form narrative texts such as movie scripts is challenging due to the computational and memory constraints of current language models. A movie script typically comprises a large number of scenes; however, only a fraction of these scenes are salient, i.e., important for understanding the overall narrative. The salience of a scene can be operationalized by considering it as salient if it is mentioned in the summary. Automatically identifying salient scenes is difficult due to the lack of suitable datasets. In this work, we introduce a scene saliency dataset that consists of human-annotated salient scenes for 100 movies. We propose a two-stage abstractive summarization approach which first identifies the salient scenes in script and then generates a summary using only those scenes. Using QA-based evaluation, we show that our model outperforms previous state-of-the-art summarization methods and reflects the information content of a movie more accurately than a model that takes the whole movie script as input.
arxiv情報
著者 | Rohit Saxena,Frank Keller |
発行日 | 2024-04-04 16:16:53+00:00 |
arxivサイト | arxiv_id(pdf) |