要約
最近の事前トレーニング済み言語モデル (PLM) は、既存の抽象的な要約データセットで有望な結果を達成しています。
ただし、既存の要約ベンチマークは、標準的な事前トレーニング コーパスおよび微調整データセットと時間的に重複します。
したがって、PLM の優れたパフォーマンスは、事前トレーニングおよび微調整中に記憶されるパラメトリック知識に依存している可能性があります。
さらに、PLM によって記憶された知識はすぐに古くなってしまう可能性があり、将来のデータに対する PLM の汎化パフォーマンスに影響を与えます。
この研究では、抽象的な要約モデルの時間的一般化能力を理解するために、2010 年から 2022 年までのデータ サンプルを含む新しいベンチマークである TempoSum を提案します。
広範な人間による評価を通じて、要約モデルに保存されたパラメトリックな知識が、将来のデータに関して生成される要約の忠実性に大きな影響を与えることを示しました。
さらに、既存の忠実性向上方法では、将来のデータに対する要約モデルの忠実性を確実に向上させることはできません。
最後に、テキスト要約モデルの時間的一般化機能を評価および改善する方法について、研究コミュニティに対するいくつかの推奨事項について説明します。
要約(オリジナル)
Recent pre-trained language models (PLMs) achieve promising results in existing abstractive summarization datasets. However, existing summarization benchmarks overlap in time with the standard pre-training corpora and finetuning datasets. Hence, the strong performance of PLMs may rely on the parametric knowledge that is memorized during pre-training and fine-tuning. Moreover, the knowledge memorized by PLMs may quickly become outdated, which affects the generalization performance of PLMs on future data. In this work, we propose TempoSum, a novel benchmark that contains data samples from 2010 to 2022, to understand the temporal generalization ability of abstractive summarization models. Through extensive human evaluation, we show that parametric knowledge stored in summarization models significantly affects the faithfulness of the generated summaries on future data. Moreover, existing faithfulness enhancement methods cannot reliably improve the faithfulness of summarization models on future data. Finally, we discuss several recommendations to the research community on how to evaluate and improve the temporal generalization capability of text summarization models.
arxiv情報
著者 | Chi Seng Cheang,Hou Pong Chan,Derek F. Wong,Xuebo Liu,Zhaocong Li,Yanming Sun,Shudong Liu,Lidia S. Chao |
発行日 | 2023-11-02 12:07:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google