Clean & Clear: Feasibility of Safe LLM Clinical Guidance

要約

背景:臨床ガイドラインは、現代のヘルスケアにおける安全な証拠に基づいた医療の中心であり、診断基準、治療オプション、幅広い病気の監視アドバイスを提供します。
LLM能力のあるチャットボットは、ヘルスケアのQ&Aタスクに大きな期待を示しており、医療に関する問い合わせに迅速かつ正確な対応を提供する可能性を提供しています。
私たちの主な目的は、ユニバーシティカレッジロンドン病院(UCLH)の臨床ガイドラインを使用して、臨床ガイドラインの質問に確実に答えることができるLLM能力のあるチャットボットソフトウェアの開発と予備評価でした。
方法:Open-Weight Llama-3.1-8B LLMを使用して、UCLHガイドラインから関連情報を抽出して質問に答えました。
私たちのアプローチは、その解釈と対応の生成に関する情報を参照することの安全性と信頼性を強調しています。
ワードの7人の医師が、その答えをゴールドスタンダードと比較することにより、チャットボットのパフォーマンスを評価しました。
結果:私たちのチャットボットは、関連性の観点から有望なパフォーマンスを示しており、その回答の73%が非常に関連性が高いと評価され、臨床的コンテキストの強い理解を示しています。
重要なことに、チャットボットは、抽出されたガイドラインラインで1.00のリコールを実現し、重要な情報を欠くリスクを大幅に最小限に抑えることです。
回答の約78%は、完全性の点で満足のいくものと評価されました。
ごく一部(〜14.5%)には、マイナーな不要な情報が含まれており、時折の精度が時折失っていることを示しています。
チャットボットは、人間の回答者の30秒と比較して、平均完了時間が10秒で高い効率を示しました。
臨床的推論の評価により、チャットボットの回答の72%に欠陥がないことが示されました。
私たちのチャットボットは、医療専門家のための地元の関連する臨床情報にアクセスするプロセスをスピードアップし、改善する重要な可能性を示しています。

要約(オリジナル)

Background: Clinical guidelines are central to safe evidence-based medicine in modern healthcare, providing diagnostic criteria, treatment options and monitoring advice for a wide range of illnesses. LLM-empowered chatbots have shown great promise in Healthcare Q&A tasks, offering the potential to provide quick and accurate responses to medical inquiries. Our main objective was the development and preliminary assessment of an LLM-empowered chatbot software capable of reliably answering clinical guideline questions using University College London Hospital (UCLH) clinical guidelines. Methods: We used the open-weight Llama-3.1-8B LLM to extract relevant information from the UCLH guidelines to answer questions. Our approach highlights the safety and reliability of referencing information over its interpretation and response generation. Seven doctors from the ward assessed the chatbot’s performance by comparing its answers to the gold standard. Results: Our chatbot demonstrates promising performance in terms of relevance, with ~73% of its responses rated as very relevant, showcasing a strong understanding of the clinical context. Importantly, our chatbot achieves a recall of 1.00 for extracted guideline lines, substantially minimising the risk of missing critical information. Approximately 78% of responses were rated satisfactory in terms of completeness. A small portion (~14.5%) contained minor unnecessary information, indicating occasional lapses in precision. The chatbot’ showed high efficiency, with an average completion time of 10 seconds, compared to 30 seconds for human respondents. Evaluation of clinical reasoning showed that 72% of the chatbot’s responses were without flaws. Our chatbot demonstrates significant potential to speed up and improve the process of accessing locally relevant clinical information for healthcare professionals.

arxiv情報

著者 Julia Ive,Felix Jozsa,Nick Jackson,Paulina Bondaronek,Ciaran Scott Hill,Richard Dobson
発行日 2025-05-06 17:34:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク