Multi-Document Summarization with Centroid-Based Pretraining

要約

Multi-Document Summarization (MDS) では、入力を一連のドキュメントとしてモデル化でき、出力はその概要です。
このペーパーでは、MDS の事前トレーニングの目標に焦点を当てます。
具体的には、新しい事前トレーニング目標を導入します。これには、各文書クラスターの ROUGE ベースの重心をその要約の代理として選択することが含まれます。
したがって、私たちの目的は人間が要約を書く必要がなく、ドキュメントセットのみで構成されるデータセットの事前トレーニングに利用できます。
複数の MDS データセットに対するゼロショット、少数ショット、および完全に教師付きの実験を通じて、私たちのモデル Centrum が最先端のモデルよりも優れているか、同等であることを示しています。
私たちは、事前トレーニングおよび微調整されたモデルを研究コミュニティ https://github.com/ratishsp/centrum に自由に利用できるようにしています。

要約(オリジナル)

In Multi-Document Summarization (MDS), the input can be modeled as a set of documents, and the output is its summary. In this paper, we focus on pretraining objectives for MDS. Specifically, we introduce a novel pretraining objective, which involves selecting the ROUGE-based centroid of each document cluster as a proxy for its summary. Our objective thus does not require human written summaries and can be utilized for pretraining on a dataset consisting solely of document sets. Through zero-shot, few-shot, and fully supervised experiments on multiple MDS datasets, we show that our model Centrum is better or comparable to a state-of-the-art model. We make the pretrained and fine-tuned models freely available to the research community https://github.com/ratishsp/centrum.

arxiv情報

著者 Ratish Puduppully,Parag Jain,Nancy F. Chen,Mark Steedman
発行日 2023-05-31 14:37:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク