Assessing the Ability of ChatGPT to Screen Articles for Systematic Reviews

要約

研究分野内の知識を整理することにより、システマティック レビュー (SR) は研究を方向付けるための貴重な手がかりを提供します。
SR がソフトウェア エンジニアリングにおいて第一級の成果物になったことを示す証拠があります。
ただし、SR のスクリーニング段階に伴う面倒な手作業により、これらの研究はコストがかかり、エラーが発生しやすい作業となります。
従来、スクリーニングは自動化に適さないと考えられてきましたが、大規模な言語モデルに裏付けられた生成型 AI 駆動型チャットボットの出現により、この分野に混乱が生じようとしています。
このレポートでは、SR のスクリーニングを自動化するためにこれらの新しい技術開発を活用するアプローチを提案します。
SR の記事をスクリーニングする際に ChatGPT の一貫性、分類パフォーマンス、一般化可能性を評価し、これらの数値を SR 自動化で使用される従来の分類器の数値と比較します。
私たちの結果は、ChatGPT が SR プロセスを自動化するための実行可能なオプションであることを示していますが、開発者は ChatGPT を SR ツールに統合する際に慎重な検討が必要です。

要約(オリジナル)

By organizing knowledge within a research field, Systematic Reviews (SR) provide valuable leads to steer research. Evidence suggests that SRs have become first-class artifacts in software engineering. However, the tedious manual effort associated with the screening phase of SRs renders these studies a costly and error-prone endeavor. While screening has traditionally been considered not amenable to automation, the advent of generative AI-driven chatbots, backed with large language models is set to disrupt the field. In this report, we propose an approach to leverage these novel technological developments for automating the screening of SRs. We assess the consistency, classification performance, and generalizability of ChatGPT in screening articles for SRs and compare these figures with those of traditional classifiers used in SR automation. Our results indicate that ChatGPT is a viable option to automate the SR processes, but requires careful considerations from developers when integrating ChatGPT into their SR tools.

arxiv情報

著者 Eugene Syriani,Istvan David,Gauransh Kumar
発行日 2023-07-12 21:39:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.SE パーマリンク