要約
事前トレーニングされた言語モデルは、複数の文書の要約タスクで使用されることが増えています。
ただし、これらのモデルは事前トレーニング用に大規模なコーパスを必要とし、ドメインに依存します。
他の非ニューラル教師なし要約アプローチは主にキーセンテンスの抽出に依存しているため、情報損失が発生する可能性があります。
これらの課題に対処するために、私たちは GLIMMER と呼ばれる、軽量でありながら効果的な教師なしアプローチを提案します。これは、グラフと語彙の特徴に基づいた教師なし複数文書要約アプローチです。
まずソース文書から文グラフを構築し、次に生のテキストから低レベルの特徴をマイニングすることで意味クラスターを自動的に識別します。これにより、クラスター内の相関関係と生成された文の流暢性が向上します。
最後に、クラスターを自然な文に要約します。
Multi-News、Multi-XScience、および DUC-2004 で行われた実験は、私たちのアプローチが既存の教師なしアプローチよりも優れていることを示しています。
さらに、ゼロショット設定では、ROUGE スコアの点で、最先端の事前トレーニング済み複数文書要約モデル (PEGASUS や PRIMERA など) を上回ります。
さらに、人間による評価では、GLIMMER によって生成された要約が高い可読性と有益性のスコアを達成していることが示されています。
私たちのコードは https://github.com/Oswald1997/GLIMMER で入手できます。
要約(オリジナル)
Pre-trained language models are increasingly being used in multi-document summarization tasks. However, these models need large-scale corpora for pre-training and are domain-dependent. Other non-neural unsupervised summarization approaches mostly rely on key sentence extraction, which can lead to information loss. To address these challenges, we propose a lightweight yet effective unsupervised approach called GLIMMER: a Graph and LexIcal features based unsupervised Multi-docuMEnt summaRization approach. It first constructs a sentence graph from the source documents, then automatically identifies semantic clusters by mining low-level features from raw texts, thereby improving intra-cluster correlation and the fluency of generated sentences. Finally, it summarizes clusters into natural sentences. Experiments conducted on Multi-News, Multi-XScience and DUC-2004 demonstrate that our approach outperforms existing unsupervised approaches. Furthermore, it surpasses state-of-the-art pre-trained multi-document summarization models (e.g. PEGASUS and PRIMERA) under zero-shot settings in terms of ROUGE scores. Additionally, human evaluations indicate that summaries generated by GLIMMER achieve high readability and informativeness scores. Our code is available at https://github.com/Oswald1997/GLIMMER.
arxiv情報
| 著者 | Ran Liu,Ming Liu,Min Yu,Jianguo Jiang,Gang Li,Dan Zhang,Jingyuan Li,Xiang Meng,Weiqing Huang | 
| 発行日 | 2024-08-19 16:01:48+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
