Unsupervised Multi-document Summarization with Holistic Inference

要約

複数文書の要約は、同じトピックについて書かれた文書の集合から核となる情報を取得することを目的としています。
この論文は、教師なしの複数文書抽出要約のための新しい全体的なフレームワークを提案します。
私たちの方法には、サブセット代表インデックス (SRI) と呼ばれる、全体的な測定に関連付けられた全体的なビーム検索推論方法が組み込まれています。
SRI は、ソース文書の文のサブセットの重要性と多様性のバランスをとり、教師なしで適応的な方法で計算できます。
私たちの方法の有効性を実証するために、教師なし設定と適応設定の両方で、小規模および大規模のマルチドキュメント要約データセットに対して広範な実験を実施します。
結果として得られる ROUGE スコアと多様性の尺度が示すように、提案された方法は強力なベースラインを大幅に上回っています。
私たちの調査結果は、複数文書の要約パフォーマンスを向上させるには多様性が不可欠であることも示唆しています。

要約(オリジナル)

Multi-document summarization aims to obtain core information from a collection of documents written on the same topic. This paper proposes a new holistic framework for unsupervised multi-document extractive summarization. Our method incorporates the holistic beam search inference method associated with the holistic measurements, named Subset Representative Index (SRI). SRI balances the importance and diversity of a subset of sentences from the source documents and can be calculated in unsupervised and adaptive manners. To demonstrate the effectiveness of our method, we conduct extensive experiments on both small and large-scale multi-document summarization datasets under both unsupervised and adaptive settings. The proposed method outperforms strong baselines by a significant margin, as indicated by the resulting ROUGE scores and diversity measures. Our findings also suggest that diversity is essential for improving multi-document summary performance.

arxiv情報

著者 Haopeng Zhang,Sangwoo Cho,Kaiqiang Song,Xiaoyang Wang,Hongwei Wang,Jiawei Zhang,Dong Yu
発行日 2023-09-08 02:56:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク