Automated Paper Screening for Clinical Reviews Using Large Language Models

要約

タイトル:大規模言語モデルを用いた臨床レビューにおける自動論文スクリーニング

要約:

– 目的:OpenAI GPT APIを用いて、実世界の臨床レビューデータセットから適切なタイトルと要約を正確かつ効率的に特定する性能を評価し、2人の独立した人間のレビュアーによる真のラベリングと比較する。
– 方法:臨床レビューにおけるタイトルと要約のスクリーニングにOpenAI GPT APIを使用する新しいワークフローを導入する。Pythonスクリプトを作成し、スクリーニング基準を自然言語で指定し、少なくとも2人の人間レビュアーによってフィルタリングされたタイトルおよび要約データセットのコーパスに対してGPT APIに対して呼び出しを行った。6つのレビュー論文で、2万4千件以上のタイトルと要約に対するモデルのパフォーマンスを人間レビュー論文と比較した。
– 結果:結果として、正確度は0.91、除外論文の感度は0.91、含まれる論文の感度は0.76であることが示された。また、ランダムに選択された論文のサブセットでは、GPT APIは決定の推論を提供する能力を示し、一部の不正確な分類に対する推論の説明を求められた場合には初期決定を修正した。
– 結論:GPT APIは、臨床レビューのプロセスを効率化し、研究者の貴重な時間と労力を節約し、臨床レビューの全体的な品質に貢献する可能性がある。ワークフローを優先し、研究者とレビュアーの代替物ではなく支援物として機能することによって、GPT APIは効率を向上させ、医療研究におけるより正確で信頼性の高い結論に導くことができる。

要約(オリジナル)

Objective: To assess the performance of the OpenAI GPT API in accurately and efficiently identifying relevant titles and abstracts from real-world clinical review datasets and compare its performance against ground truth labelling by two independent human reviewers. Methods: We introduce a novel workflow using the OpenAI GPT API for screening titles and abstracts in clinical reviews. A Python script was created to make calls to the GPT API with the screening criteria in natural language and a corpus of title and abstract datasets that have been filtered by a minimum of two human reviewers. We compared the performance of our model against human-reviewed papers across six review papers, screening over 24,000 titles and abstracts. Results: Our results show an accuracy of 0.91, a sensitivity of excluded papers of 0.91, and a sensitivity of included papers of 0.76. On a randomly selected subset of papers, the GPT API demonstrated the ability to provide reasoning for its decisions and corrected its initial decision upon being asked to explain its reasoning for a subset of incorrect classifications. Conclusion: The GPT API has the potential to streamline the clinical review process, save valuable time and effort for researchers, and contribute to the overall quality of clinical reviews. By prioritizing the workflow and acting as an aid rather than a replacement for researchers and reviewers, the GPT API can enhance efficiency and lead to more accurate and reliable conclusions in medical research.

arxiv情報

著者 Eddie Guo,Mehul Gupta,Jiawen Deng,Ye-Jean Park,Mike Paget,Christopher Naugler
発行日 2023-05-01 14:16:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク