Bipartite Graph Pre-training for Unsupervised Extractive Summarization with Graph Convolutional Auto-Encoders

要約

事前トレーニングされた文表現は、教師なし文書抽出要約において重要な文を識別するために非常に重要です。
ただし、事前トレーニングと文のランク付けという従来の 2 ステップのパラダイムでは、最適化の目的が異なるためにギャップが生じます。
この問題に対処するために、私たちは、一貫性のある独特の文表現を最適化するために特別に設計されたプロセスから派生した事前トレーニング済みの埋め込みを利用することで、重要な文をランク付けするのに役立つと主張します。
そのために、文と単語の二部グラフを通じてセンテン内特有の特徴とセンテン間の凝集特徴を明示的にモデル化することで文埋め込みを取得する、新しいグラフ事前トレーニング自動エンコーダを提案します。
これらの事前トレーニングされた文表現は、教師なし要約のためのグラフベースのランキング アルゴリズムで利用されます。
私たちの方法は、要約に値する文表現を提供することにより、教師なし要約フレームワークに対して優れたパフォーマンスを生み出します。
これは、下流タスクにおける重い BERT または RoBERTa ベースの文表現を上回ります。

要約(オリジナル)

Pre-trained sentence representations are crucial for identifying significant sentences in unsupervised document extractive summarization. However, the traditional two-step paradigm of pre-training and sentence-ranking, creates a gap due to differing optimization objectives. To address this issue, we argue that utilizing pre-trained embeddings derived from a process specifically designed to optimize cohensive and distinctive sentence representations helps rank significant sentences. To do so, we propose a novel graph pre-training auto-encoder to obtain sentence embeddings by explicitly modelling intra-sentential distinctive features and inter-sentential cohesive features through sentence-word bipartite graphs. These pre-trained sentence representations are then utilized in a graph-based ranking algorithm for unsupervised summarization. Our method produces predominant performance for unsupervised summarization frameworks by providing summary-worthy sentence representations. It surpasses heavy BERT- or RoBERTa-based sentence representations in downstream tasks.

arxiv情報

著者 Qianren Mao,Shaobo Zhao,Jiarui Li,Xiaolei Gu,Shizhu He,Bo Li,Jianxin Li
発行日 2023-10-29 12:27:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク