OARelatedWork: A Large-Scale Dataset of Related Work Sections with Full-texts from Open Access Sources

要約

本論文では、OARelatedWorkを紹介する。OARelatedWorkは、関連論文のセクション全体と引用論文のフルテキストを含む、関連論文生成のための初の大規模なマルチドキュメント要約データセットである。このデータセットには94 450の論文と5 824 689のユニークな被引用論文が含まれている。このデータセットは、現在この分野で主流となっている抄録のみから関連部分を生成するのではなく、利用可能な全てのコンテンツから関連部分全体を生成する方向にこの分野をシフトさせるために、関連部分を自動生成するタスクのために設計された。抄録の代わりに全コンテンツを用いた場合、抽出的要約の推定上限値がROUGE-2スコアで217%増加することを示す。さらに、素朴ベースライン、オラクルベースライン、伝統的ベースライン、トランスフォーマーベースラインにおけるフルコンテンツデータの利点を示す。関連研究のセクションのような長い出力は、入力の長さが限られているため、BERTScoreのような自動評価指標に課題をもたらす。我々は、BERTScoreを用いたメタメトリックを提案し評価することで、この問題に取り組む。より小さなブロックで動作するにもかかわらず、このメタメトリックはオリジナルのBERTScoreと比較して、人間の判断と相関することを示す。

要約(オリジナル)

This paper introduces OARelatedWork, the first large-scale multi-document summarization dataset for related work generation containing whole related work sections and full-texts of cited papers. The dataset includes 94 450 papers and 5 824 689 unique referenced papers. It was designed for the task of automatically generating related work to shift the field toward generating entire related work sections from all available content instead of generating parts of related work sections from abstracts only, which is the current mainstream in this field for abstractive approaches. We show that the estimated upper bound for extractive summarization increases by 217% in the ROUGE-2 score, when using full content instead of abstracts. Furthermore, we show the benefits of full content data on naive, oracle, traditional, and transformer-based baselines. Long outputs, such as related work sections, pose challenges for automatic evaluation metrics like BERTScore due to their limited input length. We tackle this issue by proposing and evaluating a meta-metric using BERTScore. Despite operating on smaller blocks, we show this meta-metric correlates with human judgment, comparably to the original BERTScore.

arxiv情報

著者 Martin Docekal,Martin Fajcik,Pavel Smrz
発行日 2024-05-03 08:49:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク