Making Science Simple: Corpora for the Lay Summarisation of Scientific Literature

要約

一般的な要約は、特定のテキストを共同で要約して単純化し、その内容を専門家以外にも理解しやすくすることを目的としています。
一般向け要約の自動アプローチは、科学文献へのアクセスを拡大する上で大きな価値をもたらし、研究結果に関する学際的な知識の共有と一般の理解の両方をより高度に可能にします。
しかし、このタスクのための現在のコーパスはそのサイズと範囲が限られており、広く適用可能なデータ駆動型アプローチの開発を妨げています。
これらの問題を修正することを目的として、PLOS (大規模) と eLife (中規模) という 2 つの新しい素人要約データセットを紹介します。それぞれのデータセットには、専門家が書いた素人要約と生物医学雑誌の記事が含まれています。
私たちは、レイサマリーの徹底的な特徴付けを提供し、さまざまなアプリケーションのニーズをサポートするために活用できるデータセット間の可読性と抽象性のレベルの違いを強調します。
最後に、主流の要約アプローチを使用してデータセットのベンチマークを行い、ドメインの専門家と手動で評価を実行して、その有用性を実証し、このタスクの主要な課題に光を当てます。

要約(オリジナル)

Lay summarisation aims to jointly summarise and simplify a given text, thus making its content more comprehensible to non-experts. Automatic approaches for lay summarisation can provide significant value in broadening access to scientific literature, enabling a greater degree of both interdisciplinary knowledge sharing and public understanding when it comes to research findings. However, current corpora for this task are limited in their size and scope, hindering the development of broadly applicable data-driven approaches. Aiming to rectify these issues, we present two novel lay summarisation datasets, PLOS (large-scale) and eLife (medium-scale), each of which contains biomedical journal articles alongside expert-written lay summaries. We provide a thorough characterisation of our lay summaries, highlighting differing levels of readability and abstractiveness between datasets that can be leveraged to support the needs of different applications. Finally, we benchmark our datasets using mainstream summarisation approaches and perform a manual evaluation with domain experts, demonstrating their utility and casting light on the key challenges of this task.

arxiv情報

著者 Tomas Goldsack,Zhihao Zhang,Chenghua Lin,Carolina Scarton
発行日 2023-12-12 07:39:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク