要約
言語モデル (LM) は、医学において専門家レベルの推論能力と想起能力を実証しています。
しかし、計算コストとプライバシーへの懸念が、大規模な実装への障壁となっています。
医療アプリケーション向けに、モバイル デバイス上で実行可能な 38 億パラメータの LM である phi-3-mini の倹約的な適応である MedMobile を紹介します。
MedMobile が MedQA (USMLE) で 75.7% のスコアを獲得し、医師の合格点 (約 60%) を上回り、サイズの 100 倍のモデルのスコアに近づいていることを実証します。
その後、一連の慎重なアブレーションを実行し、一連の思考、アンサンブル、微調整が最大のパフォーマンス向上につながる一方、予期せぬ検索拡張生成では大幅な改善が見られないことを実証しました。
要約(オリジナル)
Language models (LMs) have demonstrated expert-level reasoning and recall abilities in medicine. However, computational costs and privacy concerns are mounting barriers to wide-scale implementation. We introduce a parsimonious adaptation of phi-3-mini, MedMobile, a 3.8 billion parameter LM capable of running on a mobile device, for medical applications. We demonstrate that MedMobile scores 75.7% on the MedQA (USMLE), surpassing the passing mark for physicians (~60%), and approaching the scores of models 100 times its size. We subsequently perform a careful set of ablations, and demonstrate that chain of thought, ensembling, and fine-tuning lead to the greatest performance gains, while unexpectedly retrieval augmented generation fails to demonstrate significant improvements
arxiv情報
著者 | Krithik Vishwanath,Jaden Stryker,Anton Alaykin,Daniel Alexander Alber,Eric Karl Oermann |
発行日 | 2024-10-11 17:32:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google