CiteBench: A benchmark for Scientific Citation Text Generation

要約

科学は、科学出版物に文書化された以前の知識体系に基づいて段階的に構築することによって進歩します。
多くの分野にわたる研究が加速しているため、最新の動向を常に把握し、増え続ける過去の研究内容を要約することが困難になっています。
この問題に対処するために、引用テキスト生成タスクは、引用する一連の論文と引用論文のコンテキストを考慮して、正確なテキストの要約を生成することを目的としています。
引用文生成に関する既存の研究は、広範囲に異なるタスク定義に基づいているため、このタスクを体系的に研究することが困難です。
この課題に対処するために、私たちは CiteBench を提案します。これは、複数の多様なデータセットを統合し、タスク設計とドメイン全体で引用テキスト生成モデルの標準化された評価を可能にする、引用テキスト生成のベンチマークです。
新しいベンチマークを使用して、複数の強力なベースラインのパフォーマンスを調査し、データセット間の転送可能性をテストし、引用テキスト生成における今後の研究の指針となるタスクの定義と評価に関する新しい洞察を提供します。
CiteBench のコードは https://github.com/UKPLab/citebench で公開されています。

要約(オリジナル)

Science progresses by incrementally building upon the prior body of knowledge documented in scientific publications. The acceleration of research across many fields makes it hard to stay up-to-date with the recent developments and to summarize the ever-growing body of prior work. To target this issue, the task of citation text generation aims to produce accurate textual summaries given a set of papers-to-cite and the citing paper context. Existing studies in citation text generation are based upon widely diverging task definitions, which makes it hard to study this task systematically. To address this challenge, we propose CiteBench: a benchmark for citation text generation that unifies multiple diverse datasets and enables standardized evaluation of citation text generation models across task designs and domains. Using the new benchmark, we investigate the performance of multiple strong baselines, test their transferability between the datasets, and deliver new insights into the task definition and evaluation to guide future research in citation text generation. We make the code for CiteBench publicly available at https://github.com/UKPLab/citebench.

arxiv情報

著者 Martin Funkquist,Ilia Kuznetsov,Yufang Hou,Iryna Gurevych
発行日 2023-05-16 12:29:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク