Evaluating the quality of published medical research with ChatGPT

要約

出版された研究の質を推定することは、学部、研究者、就職希望者の評価にとって重要である。引用に基づく指標はこれらのタスクをサポートすることがありますが、新しい論文には機能せず、精度は低いか中程度です。これまでの研究で、ChatGPTは研究論文の質を推定できることが示されており、そのスコアはすべての分野で専門家のスコアプロキシと正の相関があり、臨床医学を除いては引用ベースの指標よりも強いことが多い。したがって、ChatGPTのスコアは、アプリケーションによっては引用ベースの指標に取って代わる可能性がある。この論文では、臨床医学の異常について、これまでで最大のデータセットと、より詳細な分析を用いて調査しています。その結果、英国のREF(Research Excellence Framework)2021 UoA(Unit of Assessment)1 Clinical Medicineに投稿された論文のChatGPT 4o-miniスコアは、理論上の最大相関r=0.226に対して、部門平均REFスコアと正の相関(r=0.134、n=9872)を示した。ChatGPT 4o と 3.5 turbo も正の相関を示した。学部レベルでは、ChatGPTの平均得点は学部平均REF得点とより強く相関していた(r=0.395、n=31)。UoA 1で最も論文数の多い100誌の平均ChatGPTスコアは、REFスコアと強い相関があったが(r=0.495)、被引用率とは負の相関があった(r=-0.148)。ChatGPTは、権威ある医学雑誌に掲載された研究、または人の健康に直接影響する研究、あるいはその両方の質を評価するのに有効でないことを、ジャーナルや部門ごとの異常が示している。とはいえ、この結果は、ChatGPTが引用に基づく指標に代わって新しい研究を評価する可能性がある、臨床医学の全体的な研究の質を評価する能力を実証しています。

要約(オリジナル)

Estimating the quality of published research is important for evaluations of departments, researchers, and job candidates. Citation-based indicators sometimes support these tasks, but do not work for new articles and have low or moderate accuracy. Previous research has shown that ChatGPT can estimate the quality of research articles, with its scores correlating positively with an expert scores proxy in all fields, and often more strongly than citation-based indicators, except for clinical medicine. ChatGPT scores may therefore replace citation-based indicators for some applications. This article investigates the clinical medicine anomaly with the largest dataset yet and a more detailed analysis. The results showed that ChatGPT 4o-mini scores for articles submitted to the UK’s Research Excellence Framework (REF) 2021 Unit of Assessment (UoA) 1 Clinical Medicine correlated positively (r=0.134, n=9872) with departmental mean REF scores, against a theoretical maximum correlation of r=0.226. ChatGPT 4o and 3.5 turbo also gave positive correlations. At the departmental level, mean ChatGPT scores correlated more strongly with departmental mean REF scores (r=0.395, n=31). For the 100 journals with the most articles in UoA 1, their mean ChatGPT score correlated strongly with their REF score (r=0.495) but negatively with their citation rate (r=-0.148). Journal and departmental anomalies in these results point to ChatGPT being ineffective at assessing the quality of research in prestigious medical journals or research directly affecting human health, or both. Nevertheless, the results give evidence of ChatGPT’s ability to assess research quality overall for Clinical Medicine, where it might replace citation-based indicators for new research.

arxiv情報

著者 Mike Thelwall,Xiaorui Jiang,Peter A. Bath
発行日 2025-03-03 15:46:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.DL パーマリンク