Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases

要約

Deepseek-R1やOpenai-O3などの推論強化大型言語モデル(LLM)の最近の進歩は、大きな進歩を示しています。
ただし、特に最終的な出力とともに、推論プロセスの品質を評価する際には、専門的な医療の文脈での適用が未定です。
ここでは、1,453の構造化された患者症例のベンチマークデータセットであるMEDRベンチを紹介します。
13のボディシステムと10の専門分野にまたがる、一般的な疾患とまれな疾患の両方が含まれています。
LLMのパフォーマンスを包括的に評価するために、患者ケアの旅全体をシミュレートする3つの重要な試験の推奨、診断意思決定、および治療計画を含むフレームワークを提案します。
推論の品質を評価するために、動的な相互参照と証拠チェックを使用して、効率、現実、および完全性に基づいてフリーテキスト推論応答を客観的にスコアリングする新しい自動化されたシステムである推論評価者を提示します。
このベンチマークを使用して、DeepSeek-R1、Openai-O3-Mini、Gemini-2.0-Flash Thinkingなどの5つの最先端の推論LLMを評価します。結果は、十分な検査結果を提供すると、比較的単純な診断タスクで85%以上の精度を達成することを示しています。
ただし、試験の推奨や治療計画など、より複雑なタスクのパフォーマンスは低下します。
推論出力は一般に信頼性があり、事実上のスコアは90%を超えていますが、重要な推論ステップは頻繁に見逃されます。
これらの発見は、臨床LLMの進捗と制限の両方を強調しています。
特に、DeepSeek-R1のようなオープンソースモデルは、独自のシステムとのギャップを絞り込んでおり、ヘルスケアのアクセス可能で公平な進歩を促進する可能性を強調しています。

要約(オリジナル)

Recent advancements in reasoning-enhanced large language models (LLMs), such as DeepSeek-R1 and OpenAI-o3, have demonstrated significant progress. However, their application in professional medical contexts remains underexplored, particularly in evaluating the quality of their reasoning processes alongside final outputs. Here, we introduce MedR-Bench, a benchmarking dataset of 1,453 structured patient cases, annotated with reasoning references derived from clinical case reports. Spanning 13 body systems and 10 specialties, it includes both common and rare diseases. To comprehensively evaluate LLM performance, we propose a framework encompassing three critical examination recommendation, diagnostic decision-making, and treatment planning, simulating the entire patient care journey. To assess reasoning quality, we present the Reasoning Evaluator, a novel automated system that objectively scores free-text reasoning responses based on efficiency, actuality, and completeness using dynamic cross-referencing and evidence checks. Using this benchmark, we evaluate five state-of-the-art reasoning LLMs, including DeepSeek-R1, OpenAI-o3-mini, and Gemini-2.0-Flash Thinking, etc. Our results show that current LLMs achieve over 85% accuracy in relatively simple diagnostic tasks when provided with sufficient examination results. However, performance declines in more complex tasks, such as examination recommendation and treatment planning. While reasoning outputs are generally reliable, with factuality scores exceeding 90%, critical reasoning steps are frequently missed. These findings underscore both the progress and limitations of clinical LLMs. Notably, open-source models like DeepSeek-R1 are narrowing the gap with proprietary systems, highlighting their potential to drive accessible and equitable advancements in healthcare.

arxiv情報

著者 Pengcheng Qiu,Chaoyi Wu,Shuyu Liu,Weike Zhao,Zhuoxia Chen,Hongfei Gu,Chuanjin Peng,Ya Zhang,Yanfeng Wang,Weidi Xie
発行日 2025-03-10 17:28:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク