要約
臨床研究向けに明示的に調整されたオープン大規模言語モデル (LLM) である Clinical Camel を紹介します。
QLoRA を使用して LLaMA-2 から微調整された Clinical Camel は、公開されている医療 LLM の医療ベンチマーク全体で最先端のパフォーマンスを実現します。
Clinical Camel は、効率的なシングル GPU トレーニングを活用して、評価されたすべてのベンチマークの 5 ショット評価で GPT-3.5 を上回っています。これには、USMLE サンプル試験で 64.3% (GPT-3.5 の 58.5% と比較)、PubMedQA で 77.9% (60.2 と比較) が含まれます。
%)、MedQA では 60.7% (53.6% と比較)、MedMCQA では 54.2% (51.0% と比較)。
これらのベンチマークに加えて、Clinical Camel は、もっともらしい臨床メモの合成など、より広範な機能を実証します。
この研究では、高密度の医学テキストから会話データを合成する新しい方法である、対話ベースの知識エンコーディングを導入しています。
ベンチマークの結果は有望ですが、実装前に安全性を確認するには、多様な臨床シナリオにわたる広範かつ厳格な人による評価が不可欠です。
Clinical Camel をオープンに共有することで、透明性のある共同研究を促進し、ヘルスケア領域内での LLM の安全な統合に向けて取り組んでいきたいと考えています。
信頼性、偏見、および古い知識の可能性に関する重大な課題が依然として残っています。
それにもかかわらず、オープンなアプローチによってもたらされる透明性は、将来の臨床応用に不可欠な科学的厳密性を強化します。
要約(オリジナル)
We present Clinical Camel, an open large language model (LLM) explicitly tailored for clinical research. Fine-tuned from LLaMA-2 using QLoRA, Clinical Camel achieves state-of-the-art performance across medical benchmarks among openly available medical LLMs. Leveraging efficient single-GPU training, Clinical Camel surpasses GPT-3.5 in five-shot evaluations on all assessed benchmarks, including 64.3% on the USMLE Sample Exam (compared to 58.5% for GPT-3.5), 77.9% on PubMedQA (compared to 60.2%), 60.7% on MedQA (compared to 53.6%), and 54.2% on MedMCQA (compared to 51.0%). In addition to these benchmarks, Clinical Camel demonstrates its broader capabilities, such as synthesizing plausible clinical notes. This work introduces dialogue-based knowledge encoding, a novel method to synthesize conversational data from dense medical texts. While benchmark results are encouraging, extensive and rigorous human evaluation across diverse clinical scenarios is imperative to ascertain safety before implementation. By openly sharing Clinical Camel, we hope to foster transparent and collaborative research, working towards the safe integration of LLMs within the healthcare domain. Significant challenges concerning reliability, bias, and the potential for outdated knowledge persist. Nonetheless, the transparency provided by an open approach reinforces the scientific rigor essential for future clinical applications.
arxiv情報
著者 | Augustin Toma,Patrick R. Lawler,Jimmy Ba,Rahul G. Krishnan,Barry B. Rubin,Bo Wang |
発行日 | 2023-08-17 17:19:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google