Compressed Heterogeneous Graph for Abstractive Multi-Document Summarization

要約

複数文書要約 (MDS) は、多数の関連文書の要約を生成することを目的としています。
HGSUM は、エンコーダー/デコーダー アーキテクチャを拡張する MDS モデルであり、ドキュメントのさまざまな意味単位 (単語や文など) を表す異種グラフを組み込みます。
これは、さまざまなエッジ タイプのグラフを考慮せず、ドキュメント内の関係の多様性を捉えていない既存の MDS モデルとは対照的です。
異種グラフ内のドキュメントの重要な情報と関係のみを保持するために、HGSUM はグラフ プーリングを使用して入力グラフを圧縮します。
また、HGSUM が圧縮を学習するように導くために、トレーニング中に圧縮されたグラフとグラウンド トゥルースの要約から構築されたグラフとの間の類似性を最大化する追加の目的を導入します。
HGSUM は、グラフの類似性と標準的なクロス エントロピーの目的でエンドツーエンドでトレーニングされます。
MULTI-NEWS、WCEP-100、および ARXIV に関する実験結果は、HGSUM が最先端の MDS モデルよりも優れていることを示しています。
モデルと実験のコードは、https://github.com/oaimli/HGSum で入手できます。

要約(オリジナル)

Multi-document summarization (MDS) aims to generate a summary for a number of related documents. We propose HGSUM, an MDS model that extends an encoder-decoder architecture, to incorporate a heterogeneous graph to represent different semantic units (e.g., words and sentences) of the documents. This contrasts with existing MDS models which do not consider different edge types of graphs and as such do not capture the diversity of relationships in the documents. To preserve only key information and relationships of the documents in the heterogeneous graph, HGSUM uses graph pooling to compress the input graph. And to guide HGSUM to learn compression, we introduce an additional objective that maximizes the similarity between the compressed graph and the graph constructed from the ground-truth summary during training. HGSUM is trained end-to-end with graph similarity and standard cross-entropy objectives. Experimental results over MULTI-NEWS, WCEP-100, and ARXIV show that HGSUM outperforms state-of-the-art MDS models. The code for our model and experiments is available at: https://github.com/oaimli/HGSum.

arxiv情報

著者 Miao Li,Jianzhong Qi,Jey Han Lau
発行日 2023-03-12 04:23:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク