The Promise and Challenges of Using LLMs to Accelerate the Screening Process of Systematic Reviews

要約

システマティック レビュー (SR) は、ソフトウェア エンジニアリング (SE) で人気のある調査手法です。
ただし、SR の実施には平均 67 週間かかります。
したがって、SR プロセスの任意のステップを自動化すると、SR に関連する労力を削減できます。
私たちの目的は、大規模言語モデル (LLM) が人間の審査担当者のために要約を簡素化し、タイトルと要約のスクリーニングを自動化することによって、タイトルと要約のスクリーニングを加速できるかどうかを調査することです。
私たちは、人間が 20 件の論文のタイトルと要約を、元の要約と以前の SR からの簡略化された要約の両方でスクリーニングする実験を実行しました。
人間のスクリーナーを使用した実験は、GPT-3.5 および GPT-4 LLM を使用して再現され、同じスクリーニング タスクが実行されました。
また、さまざまなプロンプト手法(ゼロショット(ZS)、ワンショット(OS)、フューショット(FS)、および思考連鎖付きフューショット(FS-CoT))がスクリーニングのパフォーマンスを向上させるかどうかも調査しました。
LLM。
最後に、スクリーニングの LLM 再現で使用されるプロンプトを再設計することがパフォーマンスの向上につながるかどうかを検討しました。
テキストの簡略化によって審査員の審査パフォーマンスは向上しませんでしたが、審査にかかる時間は短縮されました。
スクリーニング担当者の科学的リテラシーのスキルと研究者のステータスにより、スクリーニングのパフォーマンスが予測されます。
一部の LLM とプロンプトの組み合わせは、スクリーニング タスクにおいて人間のスクリーナーと同様に機能します。
私たちの結果は、GPT-4 LLM が以前の GPT-3.5 よりも優れていることを示しています。
さらに、フューショットおよびワンショット プロンプトはゼロショット プロンプトよりも優れています。
スクリーニング プロセスでテキストを簡素化するために LLM を使用しても、人間のパフォーマンスは大幅には向上しません。
LLM を使用してタイトルと要約のスクリーニングを自動化することは有望に思えますが、現在の LLM は人間のスクリーニング者よりもそれほど正確ではありません。
SR のスクリーニングプロセスで LLM の使用を推奨するには、さらなる研究が必要です。
今後の SR 研究では、LLM スクリーニングのより決定的な実験を可能にするために、スクリーニング データを含むレプリケーション パッケージを公開することをお勧めします。

要約(オリジナル)

Systematic review (SR) is a popular research method in software engineering (SE). However, conducting an SR takes an average of 67 weeks. Thus, automating any step of the SR process could reduce the effort associated with SRs. Our objective is to investigate if Large Language Models (LLMs) can accelerate title-abstract screening by simplifying abstracts for human screeners, and automating title-abstract screening. We performed an experiment where humans screened titles and abstracts for 20 papers with both original and simplified abstracts from a prior SR. The experiment with human screeners was reproduced with GPT-3.5 and GPT-4 LLMs to perform the same screening tasks. We also studied if different prompting techniques (Zero-shot (ZS), One-shot (OS), Few-shot (FS), and Few-shot with Chain-of-Thought (FS-CoT)) improve the screening performance of LLMs. Lastly, we studied if redesigning the prompt used in the LLM reproduction of screening leads to improved performance. Text simplification did not increase the screeners’ screening performance, but reduced the time used in screening. Screeners’ scientific literacy skills and researcher status predict screening performance. Some LLM and prompt combinations perform as well as human screeners in the screening tasks. Our results indicate that the GPT-4 LLM is better than its predecessor, GPT-3.5. Additionally, Few-shot and One-shot prompting outperforms Zero-shot prompting. Using LLMs for text simplification in the screening process does not significantly improve human performance. Using LLMs to automate title-abstract screening seems promising, but current LLMs are not significantly more accurate than human screeners. To recommend the use of LLMs in the screening process of SRs, more research is needed. We recommend future SR studies publish replication packages with screening data to enable more conclusive experimenting with LLM screening.

arxiv情報

著者 Aleksi Huotala,Miikka Kuutila,Paul Ralph,Mika Mäntylä
発行日 2024-04-26 13:15:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク