CSMeD: Bridging the Dataset Gap in Automated Citation Screening for Systematic Literature Reviews

要約

体系的文献レビュー (SLR) は、科学的証拠を要約、統合、検証する際に重要な役割を果たします。
近年、機械学習技術を使用して一眼レフに関連する研究の特定を自動化することへの関心が高まっています。
ただし、標準化された評価データセットが不足しているため、このような自動文献スクリーニング システムのパフォーマンスを比較することが困難になります。
この論文では、引用スクリーニング評価データセットを分析し、利用可能なデータセットの多くが小さすぎるか、データ漏洩に悩まされているか、あるいは、自動文献スクリーニングを分類タスクとして扱うシステムへの適用性が限られているかのいずれかであることを明らかにしました。
検索または質問に答えるタスク。
これらの課題に対処するために、9 つの公開コレクションを統合するメタデータセットである CSMeD を導入し、医学およびコンピューター サイエンスの分野の 325 台の一眼レフカメラへの統合アクセスを提供します。
CSMeD は、自動引用スクリーニング モデルのパフォーマンスをトレーニングおよび評価するための包括的なリソースとして機能します。
さらに、全文出版スクリーニングタスクを評価するために明示的に設計された新しいデータセットである CSMeD-FT を紹介します。
CSMeD の有用性を実証するために、私たちは実験を実施し、新しいデータセットでベースラインを確立します。

要約(オリジナル)

Systematic literature reviews (SLRs) play an essential role in summarising, synthesising and validating scientific evidence. In recent years, there has been a growing interest in using machine learning techniques to automate the identification of relevant studies for SLRs. However, the lack of standardised evaluation datasets makes comparing the performance of such automated literature screening systems difficult. In this paper, we analyse the citation screening evaluation datasets, revealing that many of the available datasets are either too small, suffer from data leakage or have limited applicability to systems treating automated literature screening as a classification task, as opposed to, for example, a retrieval or question-answering task. To address these challenges, we introduce CSMeD, a meta-dataset consolidating nine publicly released collections, providing unified access to 325 SLRs from the fields of medicine and computer science. CSMeD serves as a comprehensive resource for training and evaluating the performance of automated citation screening models. Additionally, we introduce CSMeD-FT, a new dataset designed explicitly for evaluating the full text publication screening task. To demonstrate the utility of CSMeD, we conduct experiments and establish baselines on new datasets.

arxiv情報

著者 Wojciech Kusa,Oscar E. Mendoza,Matthias Samwald,Petr Knoth,Allan Hanbury
発行日 2023-11-21 09:36:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク