Mining both Commonality and Specificity from Multiple Documents for Multi-Document Summarization

要約

複数文書の要約タスクでは、設計された要約器が、元文書の重要な情報をカバーし、内容の多様性を満足する短いテキストを生成することが求められる。本論文では、文書の階層的クラスタリングに基づく複数文書要約のアプローチを提案する。文書のクラスツリーを利用して、全文書の共通性を反映した文と、文書のサブクラスの特異性を反映した文の両方を抽出し、要約を生成することで、複数文書の要約に求められる網羅性と多様性を満足させることができる。DUC’2002-2004データセットにおける異なる変形アプローチとの比較実験により、複数文書要約のために文書の共通性と特異性の両方をマイニングすることの有効性が証明された。DUC’2004とMulti-Newsデータセットでの実験では、我々のアプローチが最先端の教師なしアプローチや教師ありアプローチと比較して競争力のある性能を達成することが示された。

要約(オリジナル)

The multi-document summarization task requires the designed summarizer to generate a short text that covers the important information of original documents and satisfies content diversity. This paper proposes a multi-document summarization approach based on hierarchical clustering of documents. It utilizes the constructed class tree of documents to extract both the sentences reflecting the commonality of all documents and the sentences reflecting the specificity of some subclasses of these documents for generating a summary, so as to satisfy the coverage and diversity requirements of multi-document summarization. Comparative experiments with different variant approaches on DUC’2002-2004 datasets prove the effectiveness of mining both the commonality and specificity of documents for multi-document summarization. Experiments on DUC’2004 and Multi-News datasets show that our approach achieves competitive performance compared to the state-of-the-art unsupervised and supervised approaches.

arxiv情報

著者 Bing Ma
発行日 2023-03-05 14:25:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク