MEDIQ: Question-Asking LLMs for Adaptive and Reliable Clinical Reasoning

要約

臨床推論のような一か八かの分野では、大規模言語モデル (LLM) を利用した AI アシスタントはまだ信頼性も安全性も高くありません。
私たちは、信頼性に対する主要な障害を特定します。それは、既存の LLM は、プロンプト内のコンテキストが不完全であったりパラメトリック知識が不十分であったりしても、あらゆる質問に答えるように訓練されているということです。
私たちは、このパラダイムを変更して、必要かつ十分な情報を収集し、確実に応答するためにフォローアップの質問をする、より慎重な LLM を開発することを提案します。
患者システムと適応エキスパート システムを組み込んだ、現実的な臨床インタラクションをシミュレートするフレームワークである MEDIQ を紹介します。
患者は最初に不完全な情報を提供する場合があります。
専門家は自信がない場合には診断上の決定を下すことを控え、代わりにフォローアップの質問を通じて患者から欠けている詳細を引き出します。
MEDIQ を評価するために、診断質問応答のための医療ベンチマークである MEDQA と CRAFT-MD を対話型セットアップに変換します。
私たちは、信頼性の高い患者システムを開発し、いくつかのエキスパート システムのプロトタイプを作成しました。その結果、最先端の LLM に質問を直接促すと臨床推論の質が低下することが初めて示され、対話型の情報探索環境に LLM を適応させるのは簡単ではないことがわかりました。
次に、新しい棄権モジュールでエキスパートを強化して、モデルの信頼性をより適切に推定し、さらに質問するかどうかを決定することで、診断精度を 20.3% 向上させます。
ただし、完全な情報が事前に与えられた場合、パフォーマンスは (実際には非現実的な) 上限に比べて依然として遅れます。
さらなる分析により、無関係なコンテキストをフィルタリングし、会話を再フォーマットすることでインタラクティブなパフォーマンスを向上できることが明らかになりました。
全体として、私たちの論文は、LLM の信頼性に対する新しい問題、新しい MEDIQ フレームワークを紹介し、重要な領域における LLM アシスタントの情報探索能力を拡張するための重要な将来の方向性を強調しています。

要約(オリジナル)

In high-stakes domains like clinical reasoning, AI assistants powered by large language models (LLMs) are yet to be reliable and safe. We identify a key obstacle towards reliability: existing LLMs are trained to answer any question, even with incomplete context in the prompt or insufficient parametric knowledge. We propose to change this paradigm to develop more careful LLMs that ask follow-up questions to gather necessary and sufficient information and respond reliably. We introduce MEDIQ, a framework to simulate realistic clinical interactions, which incorporates a Patient System and an adaptive Expert System. The Patient may provide incomplete information in the beginning; the Expert refrains from making diagnostic decisions when unconfident, and instead elicits missing details from the Patient via follow-up questions. To evaluate MEDIQ, we convert MEDQA and CRAFT-MD — medical benchmarks for diagnostic question answering — into an interactive setup. We develop a reliable Patient system and prototype several Expert systems, first showing that directly prompting state-of-the-art LLMs to ask questions degrades the quality of clinical reasoning, indicating that adapting LLMs to interactive information-seeking settings is nontrivial. We then augment the Expert with a novel abstention module to better estimate model confidence and decide whether to ask more questions, thereby improving diagnostic accuracy by 20.3%; however, performance still lags compared to an (unrealistic in practice) upper bound when full information is given upfront. Further analyses reveal that interactive performance can be improved by filtering irrelevant contexts and reformatting conversations. Overall, our paper introduces a novel problem towards LLM reliability, a novel MEDIQ framework, and highlights important future directions to extend the information-seeking abilities of LLM assistants in critical domains.

arxiv情報

著者 Shuyue Stella Li,Vidhisha Balachandran,Shangbin Feng,Jonathan Ilgen,Emma Pierson,Pang Wei Koh,Yulia Tsvetkov
発行日 2024-06-04 13:55:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク