要約
医療の系統的レビューは、臨床上の意思決定と医療政策に情報を提供するために非常に重要です。
しかし、そのようなレビューを作成するのは面倒で時間がかかります。
したがって、多くの質問については、質の高い証拠の概要が利用可能ではなく、利用可能であっても古いものである可能性があります。
大規模言語モデル (LLM) は現在、長い形式のテキストを生成できるようになっており、オンデマンドで文献レビューを自動的に生成するという興味深い可能性が示唆されています。
ただし、LLM は、重要な情報を幻覚したり省略したりすることにより、不正確な (誤解を招く可能性がある) テキストを生成することがあります。
医療の文脈では、これにより、LLM が良くても使用できなくなり、最悪の場合は危険になる可能性があります。
LLM の利点とリスクに関する議論のほとんどは、特定のアプリケーションから切り離されています。
この研究では、医療証拠レビューの作成を支援するための LLM の潜在的な有用性とリスクを定性的に特徴付けることを目指しています。
私たちは、システマティックレビューの国際的な専門家と16回の半構造化インタビューを実施し、証拠レビューを作成するという文脈での議論の基礎を作りました。
ドメインの専門家らは、LLM は平易な言葉での要約の草案や作成、テンプレートや提案の生成、情報の抽出、クロスチェック、テキスト入力の合成や解釈のためのツールとして、レビューの執筆に役立つ可能性があると指摘しました。
しかし、彼らはまた、モデルの出力に関する問題も特定し、自信を持って構成された不正確な LLM 出力が誤解を招く可能性のある、下流での潜在的な害について懸念を表明しました。
その他に予想される下流側への潜在的損害には、説明責任の軽減や、自動生成される低品質の可能性のあるレビューの蔓延などが含まれます。
この定性分析に基づいて、私たちは分野の専門家の見解に沿った生物医学 LLM の厳密な評価基準を特定します。
要約(オリジナル)
Medical systematic reviews are crucial for informing clinical decision making and healthcare policy. But producing such reviews is onerous and time-consuming. Thus, high-quality evidence synopses are not available for many questions and may be outdated even when they are available. Large language models (LLMs) are now capable of generating long-form texts, suggesting the tantalizing possibility of automatically generating literature reviews on demand. However, LLMs sometimes generate inaccurate (and potentially misleading) texts by hallucinating or omitting important information. In the healthcare context, this may render LLMs unusable at best and dangerous at worst. Most discussion surrounding the benefits and risks of LLMs have been divorced from specific applications. In this work, we seek to qualitatively characterize the potential utility and risks of LLMs for assisting in production of medical evidence reviews. We conducted 16 semi-structured interviews with international experts in systematic reviews, grounding discussion in the context of generating evidence reviews. Domain experts indicated that LLMs could aid writing reviews, as a tool for drafting or creating plain language summaries, generating templates or suggestions, distilling information, crosschecking, and synthesizing or interpreting text inputs. But they also identified issues with model outputs and expressed concerns about potential downstream harms of confidently composed but inaccurate LLM outputs which might mislead. Other anticipated potential downstream harms included lessened accountability and proliferation of automatically generated reviews that might be of low quality. Informed by this qualitative analysis, we identify criteria for rigorous evaluation of biomedical LLMs aligned with domain expert views.
arxiv情報
著者 | Hye Sun Yun,Iain J. Marshall,Thomas Trikalinos,Byron C. Wallace |
発行日 | 2023-05-19 17:09:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google