[Citation needed] Data usage and citation practices in medical imaging conferences

要約

医用画像診断の論文はしばしば方法論に焦点を当てるが、アルゴリズムの質と結論の妥当性は、使用されたデータセットに大きく依存する。データセットの作成には多大な労力を要するため、研究者は一般に公開されているデータセットを使用することが多いが、科学論文で使用されているデータセットを引用するための採用基準がないため、データセットの使用状況を追跡することが困難である。OpenAlexと全文解析を利用したパイプライン、およびデータセットの存在を手動でラベル付けするために本研究で使用したPDFアノテーションソフトウェアである。MICCAIとMIDLの論文における20の一般に利用可能な医学データセットの使用状況に関する調査に対して、両ツールを適用した。2013年から2023年にかけて、論文における3種類のデータセットの存在の割合とその推移を計算した:引用、全文での言及、引用と言及。我々の調査結果は、限られたデータセットに利用が集中していることを示している。また、引用の慣行が異なるため、追跡の自動化が困難であることも明らかにした。

要約(オリジナル)

Medical imaging papers often focus on methodology, but the quality of the algorithms and the validity of the conclusions are highly dependent on the datasets used. As creating datasets requires a lot of effort, researchers often use publicly available datasets, there is however no adopted standard for citing the datasets used in scientific papers, leading to difficulty in tracking dataset usage. In this work, we present two open-source tools we created that could help with the detection of dataset usage, a pipeline \url{https://github.com/TheoSourget/Public_Medical_Datasets_References} using OpenAlex and full-text analysis, and a PDF annotation software \url{https://github.com/TheoSourget/pdf_annotator} used in our study to manually label the presence of datasets. We applied both tools on a study of the usage of 20 publicly available medical datasets in papers from MICCAI and MIDL. We compute the proportion and the evolution between 2013 and 2023 of 3 types of presence in a paper: cited, mentioned in the full text, cited and mentioned. Our findings demonstrate the concentration of the usage of a limited set of datasets. We also highlight different citing practices, making the automation of tracking difficult.

arxiv情報

著者 Théo Sourget,Ahmet Akkoç,Stinna Winther,Christine Lyngbye Galsgaard,Amelia Jiménez-Sánchez,Dovile Juodelyte,Caroline Petitjean,Veronika Cheplygina
発行日 2024-02-05 13:41:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.DL パーマリンク