High-performance automated abstract screening with large language model ensembles

要約

大規模言語モデル (LLM) は、入力テキストの処理と解釈を必要とするタスクに優れています。
抄録スクリーニングは、文献検索によって特定された大量の研究に対する包含基準と除外基準の繰り返し適用を含む系統的レビューの労働集約的な要素です。
ここでは、LLM (GPT-3.5 Turbo、GPT-4 Turbo、GPT-4o、Llama 3 70B、Gemini 1.5 Pro、および Claude Sonnet 3.5) をコクラン ライブラリの全号の体系的レビューで試用し、精度をゼロで評価しました。
– 抽象スクリーニングのためのショットバイナリ分類。
800 レコードのサブセットを対象としたトライアルにより、最適なプロンプト戦略が特定され、感度 (LLM-max = 1.000、human-max = 0.775)、精度 (LLM-max = 0.927、human-max = 0.775) の点で人間の研究者よりも優れた LLM のパフォーマンスが実証されました。
0.911)、バランスの取れた精度(LLM-max = 0.904、human-max = 0.865)。
最高のパフォーマンスを発揮する LLM プロンプトの組み合わせが、複製されたすべての検索結果 (n = 119,691) で試行され、一貫した感度 (範囲 0.756 ~ 1.000) を示しましたが、精度は低下しました (範囲 0.004 ~ 0.096)。
66 個の LLM-ヒトおよび LLM-LLM アンサンブルは、最大精度 0.458 の完璧な感度を示し、大規模な試験でもパフォーマンスの低下はほとんど観察されませんでした。
レビュー間でパフォーマンスに大きなばらつきが観察され、展開前のドメイン固有の検証の重要性が浮き彫りになりました。
LLM は、精度と感度を維持または向上させて、体系的レビューの人件費を削減する可能性があります。
システマティックレビューは、証拠に基づく医学を含む学術分野全体にわたる証拠統合の基礎であり、LLM はこの研究モードの効率と質を向上させる可能性があります。

要約(オリジナル)

Large language models (LLMs) excel in tasks requiring processing and interpretation of input text. Abstract screening is a labour-intensive component of systematic review involving repetitive application of inclusion and exclusion criteria on a large volume of studies identified by a literature search. Here, LLMs (GPT-3.5 Turbo, GPT-4 Turbo, GPT-4o, Llama 3 70B, Gemini 1.5 Pro, and Claude Sonnet 3.5) were trialled on systematic reviews in a full issue of the Cochrane Library to evaluate their accuracy in zero-shot binary classification for abstract screening. Trials over a subset of 800 records identified optimal prompting strategies and demonstrated superior performance of LLMs to human researchers in terms of sensitivity (LLM-max = 1.000, human-max = 0.775), precision (LLM-max = 0.927, human-max = 0.911), and balanced accuracy (LLM-max = 0.904, human-max = 0.865). The best performing LLM-prompt combinations were trialled across every replicated search result (n = 119,691), and exhibited consistent sensitivity (range 0.756-1.000) but diminished precision (range 0.004-0.096). 66 LLM-human and LLM-LLM ensembles exhibited perfect sensitivity with a maximal precision of 0.458, with less observed performance drop in larger trials. Significant variation in performance was observed between reviews, highlighting the importance of domain-specific validation before deployment. LLMs may reduce the human labour cost of systematic review with maintained or improved accuracy and sensitivity. Systematic review is the foundation of evidence synthesis across academic disciplines, including evidence-based medicine, and LLMs may increase the efficiency and quality of this mode of research.

arxiv情報

著者 Rohan Sanghera,Arun James Thirunavukarasu,Marc El Khoury,Jessica O’Logbon,Yuqing Chen,Archie Watt,Mustafa Mahmood,Hamid Butt,George Nishimura,Andrew Soltan
発行日 2024-11-22 14:11:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DL, cs.IR パーマリンク