Source Identification in Abstractive Summarization

要約

ニューラル抽象要約モデルはエンドツーエンドの方法で要約を作成しますが、ソース情報が実際にどのように要約に変換されるかについてはほとんど知られていません。
本論文では、生成される要約文に必須の情報を含む入力文を$\textit{原文}$と定義し、原文を解析することで抽象的な要約がどのように作成されるかを検討する。
この目的を達成するために、CNN/DailyMail および XSum データセットからサンプリングされたドキュメントと要約のペアについて PEGASUS によって生成された参照要約とシステム要約のソース文に注釈を付けます。
また、自動原文検出を策定し、複数の方法を比較して、タスクの強力なベースラインを確立します。
実験結果は、複雑性ベースの方法は高度に抽象化された設定で良​​好に機能するのに対し、類似性ベースの方法は比較的抽出性の高い設定で堅牢に機能することを示しています。
コードとデータは https://github.com/suhara/sourcesum で入手できます。

要約(オリジナル)

Neural abstractive summarization models make summaries in an end-to-end manner, and little is known about how the source information is actually converted into summaries. In this paper, we define input sentences that contain essential information in the generated summary as $\textit{source sentences}$ and study how abstractive summaries are made by analyzing the source sentences. To this end, we annotate source sentences for reference summaries and system summaries generated by PEGASUS on document-summary pairs sampled from the CNN/DailyMail and XSum datasets. We also formulate automatic source sentence detection and compare multiple methods to establish a strong baseline for the task. Experimental results show that the perplexity-based method performs well in highly abstractive settings, while similarity-based methods perform robustly in relatively extractive settings. Our code and data are available at https://github.com/suhara/sourcesum.

arxiv情報

著者 Yoshi Suhara,Dimitris Alikaniotis
発行日 2024-02-07 09:09:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク