要約
この研究では、コヒーレンスブースティングによる抽出的要約のためのマルチタスク学習アーキテクチャを提案します。
このアーキテクチャには、抽出的サマライザと一貫した弁別モジュールが含まれています。
コヒーレント識別器は、拡張されたテキスト入力の文ベクトルに対してオンラインでトレーニングされるため、入力文が一貫しているかどうかを判断する一般的な能力が向上します。
一方、サマライザのパラメータを更新することで、コヒーレントディスクリミネータからのコヒーレントスコアを最大化します。
抽出した文を微分可能な方法でトレーニング可能にするために、文表現をマージする事前トレーニング済み変換モデル (モデルベース) と変換行列 (MAT ベース) を含む 2 つの戦略を導入します。
実験の結果、私たちが提案した方法は、元の記事での位置(つまり、自動文レベルの一貫性メトリクス)に基づいて、抽出された要約内の連続した文の割合を大幅に改善する一方で、他の自動メトリクス(つまり、RougeスコアとBertScore)の観点からの良好さが維持されることを示しています。
人間による評価も、私たちの方法によって抽出された要約の一貫性と一貫性が向上していることを証明しています。
要約(オリジナル)
This study proposes a multitask learning architecture for extractive summarization with coherence boosting. The architecture contains an extractive summarizer and coherent discriminator module. The coherent discriminator is trained online on the sentence vectors of the augmented textual input, thus improving its general ability of judging whether the input sentences are coherent. Meanwhile, we maximize the coherent scores from the coherent discriminator by updating the parameters of the summarizer. To make the extractive sentences trainable in a differentiable manner, we introduce two strategies, including pre-trained converting model (model-based) and converting matrix (MAT-based) that merge sentence representations. Experiments show that our proposed method significantly improves the proportion of consecutive sentences in the extracted summaries based on their positions in the original article (i.e., automatic sentence-level coherence metric), while the goodness in terms of other automatic metrics (i.e., Rouge scores and BertScores) are preserved. Human evaluation also evidences the improvement of coherence and consistency of the extracted summaries given by our method.
arxiv情報
著者 | Renlong Jie,Xiaojun Meng,Lifeng Shang,Xin Jiang,Qun Liu |
発行日 | 2023-07-21 10:22:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google