要約
最近のいくつかの研究では、医療アプリケーションに特化した基礎モデルの開発を目指しており、公的に利用可能な生物医学コーパスでの継続的な事前トレーニングを通じて、汎用の大規模言語モデル (LLM) と視覚言語モデル (VLM) を適応させています。
これらの研究は通常、そのようなドメイン適応型事前トレーニング (DAPT) によって、医療免許試験の質問に答えるなど、下流の医療タスクのパフォーマンスが向上すると主張しています。
この論文では、10 個の公的「医療用」LLM と 2 つの VLM を対応する基本モデルと比較し、異なる結論に達しました。すべての医療用 VLM とほぼすべての医療用 LLM は、ゼロまたは少数のレベルで基本モデルよりも一貫して改善できていません。
医療質問応答 (QA) のためのショットのプロンプトと監視付きの微調整体制。
たとえば、3 ショット設定で検討したすべてのタスクとモデルのペア全体で、医療 LLM は 22.7% のケースでのみベース モデルを上回り、36.8% のケースで (統計的) 同点に達し、ベースよりも大幅に劣っています。
残りの 40.5% のケースではモデルが使用されます。
私たちの結論は、(i) 各医療モデルを対応する基本モデルと直接比較することに基づいています。
(ii) ゼロショット/少数ショット プロンプトで各モデルのプロンプトを個別に最適化する。
(iii) 比較における統計的不確実性を考慮する。
これらの基本的な実践は文献で一貫して採用されているわけではありませんが、私たちのアブレーションは、それらが結論に実質的な影響を与えることを示しています。
一方、特定の QA タスクを微調整した後、医療 LLM はパフォーマンスの向上を示すことができますが、その利点は臨床メモに基づくタスクには引き継がれないことがわかりました。
私たちの調査結果は、最先端の一般領域モデルがすでに強力な医学知識と推論能力を示しており、将来の研究の結論を強化するための推奨事項を提供している可能性があることを示唆しています。
要約(オリジナル)
Several recent works seek to develop foundation models specifically for medical applications, adapting general-purpose large language models (LLMs) and vision-language models (VLMs) via continued pretraining on publicly available biomedical corpora. These works typically claim that such domain-adaptive pretraining (DAPT) improves performance on downstream medical tasks, such as answering medical licensing exam questions. In this paper, we compare ten public ‘medical’ LLMs and two VLMs against their corresponding base models, arriving at a different conclusion: all medical VLMs and nearly all medical LLMs fail to consistently improve over their base models in the zero-/few-shot prompting and supervised fine-tuning regimes for medical question-answering (QA). For instance, across all tasks and model pairs we consider in the 3-shot setting, medical LLMs only outperform their base models in 22.7% of cases, reach a (statistical) tie in 36.8% of cases, and are significantly worse than their base models in the remaining 40.5% of cases. Our conclusions are based on (i) comparing each medical model head-to-head, directly against the corresponding base model; (ii) optimizing the prompts for each model separately in zero-/few-shot prompting; and (iii) accounting for statistical uncertainty in comparisons. While these basic practices are not consistently adopted in the literature, our ablations show that they substantially impact conclusions. Meanwhile, we find that after fine-tuning on specific QA tasks, medical LLMs can show performance improvements, but the benefits do not carry over to tasks based on clinical notes. Our findings suggest that state-of-the-art general-domain models may already exhibit strong medical knowledge and reasoning capabilities, and offer recommendations to strengthen the conclusions of future studies.
arxiv情報
著者 | Daniel P. Jeong,Pranav Mani,Saurabh Garg,Zachary C. Lipton,Michael Oberst |
発行日 | 2024-11-13 18:50:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google