Evaluation of GPT-3.5 and GPT-4 for supporting real-world information needs in healthcare delivery

要約

タイトル: GPT-3.5とGPT-4の評価:医療提供における現実的情報ニーズへの支援について
要約:
– 大量の言語モデル(LLMs)を医療に使用する関心が高まっているが、現在の探査では臨床設定でのLLMsの実用性と安全性を評価していない。
– この研究の目的は、2つのLLMsが情報ニーズを満たし、安全で一致する方法を決定することである。
– 66の質問が提出され、12人の医師がGPT-3.5およびGPT-4による応答の可能性と情報提供サービスの既存の報告との一致を評価し、多数決に基づいて医師の評価をまとめた。
– GPT-3.5については、8つの質問の応答が情報提供サービスと一致し、20個が不一致だった。GPT-4については、13個の質問が一致し、15個が不一致であった。
– LLMsの応答は、急激な害はほとんどないが、情報提供サービスでの回答に同意した応答は20%以下であり、医師たちは何が害であるかについて意見が分かれた。
– これらの結果から、一般的な目的のLLMsは安全で信頼性のある応答を提供できるが、特定の情報ニーズを満たすことができないことが多いことを示している。
– LLMsを医療設定での実用性を明確に評価するには、追加のプロンプトエンジニアリング、キャリブレーション、および一般的なモデルのカスタムテーリングに関する研究が必要となる。

要約(オリジナル)

Despite growing interest in using large language models (LLMs) in healthcare, current explorations do not assess the real-world utility and safety of LLMs in clinical settings. Our objective was to determine whether two LLMs can serve information needs submitted by physicians as questions to an informatics consultation service in a safe and concordant manner. Sixty six questions from an informatics consult service were submitted to GPT-3.5 and GPT-4 via simple prompts. 12 physicians assessed the LLM responses’ possibility of patient harm and concordance with existing reports from an informatics consultation service. Physician assessments were summarized based on majority vote. For no questions did a majority of physicians deem either LLM response as harmful. For GPT-3.5, responses to 8 questions were concordant with the informatics consult report, 20 discordant, and 9 were unable to be assessed. There were 29 responses with no majority on ‘Agree’, ‘Disagree’, and ‘Unable to assess’. For GPT-4, responses to 13 questions were concordant, 15 discordant, and 3 were unable to be assessed. There were 35 responses with no majority. Responses from both LLMs were largely devoid of overt harm, but less than 20% of the responses agreed with an answer from an informatics consultation service, responses contained hallucinated references, and physicians were divided on what constitutes harm. These results suggest that while general purpose LLMs are able to provide safe and credible responses, they often do not meet the specific information need of a given question. A definitive evaluation of the usefulness of LLMs in healthcare settings will likely require additional research on prompt engineering, calibration, and custom-tailoring of general purpose models.

arxiv情報

著者 Debadutta Dash,Rahul Thapa,Juan M. Banda,Akshay Swaminathan,Morgan Cheatham,Mehr Kashyap,Nikesh Kotecha,Jonathan H. Chen,Saurabh Gombar,Lance Downing,Rachel Pedreira,Ethan Goh,Angel Arnaout,Garret Kenn Morris,Honor Magon,Matthew P Lungren,Eric Horvitz,Nigam H. Shah
発行日 2023-04-27 18:00:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク