MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications

要約

ヘルスケア アプリケーション向けの大規模言語モデル (LLM) の急速な開発により、現実世界のパフォーマンスをより適切に反映するために、USMLE などの頻繁に引用されるベンチマークを超えた総合的な評価を求める声が高まっています。
現実世界の評価は有用性を示す貴重な指標ではありますが、LLM の進化のペースよりも遅れていることが多く、展開時に結果が陳腐化してしまう可能性があります。
この一時的な切断により、特定の臨床用途のモデル選択のガイドとなる包括的な事前評価が必要になります。
医療的推論、倫理と偏見、データと言語の理解、文脈内学習、臨床安全性という臨床能力の 5 つの重要な側面にわたって LLM を評価するフレームワークである MEDIC を紹介します。
MEDIC は、参照出力を必要とせずに、カバレッジや幻覚検出などの分野にわたる LLM パフォーマンスを定量化する新しい反対尋問フレームワークを備えています。
私たちは MEDIC を適用して、医療上の質問への回答、安全性、要約、メモの作成などのタスクに関して LLM を評価します。
私たちの結果は、モデル サイズ、ベースライン モデルと医学的に微調整されたモデルによるパフォーマンスの違いを示しており、幻覚の少なさや推論コストの低さなど、特定のモデルの強度を必要とするアプリケーションのモデル選択に影響を与えます。
MEDIC の多面的な評価は、これらのパフォーマンスのトレードオフを明らかにし、理論上の能力と医療現場での実際の実装の間のギャップを埋め、最も有望なモデルが特定され、多様な医療アプリケーションに適応されることを保証します。

要約(オリジナル)

The rapid development of Large Language Models (LLMs) for healthcare applications has spurred calls for holistic evaluation beyond frequently-cited benchmarks like USMLE, to better reflect real-world performance. While real-world assessments are valuable indicators of utility, they often lag behind the pace of LLM evolution, likely rendering findings obsolete upon deployment. This temporal disconnect necessitates a comprehensive upfront evaluation that can guide model selection for specific clinical applications. We introduce MEDIC, a framework assessing LLMs across five critical dimensions of clinical competence: medical reasoning, ethics and bias, data and language understanding, in-context learning, and clinical safety. MEDIC features a novel cross-examination framework quantifying LLM performance across areas like coverage and hallucination detection, without requiring reference outputs. We apply MEDIC to evaluate LLMs on medical question-answering, safety, summarization, note generation, and other tasks. Our results show performance disparities across model sizes, baseline vs medically finetuned models, and have implications on model selection for applications requiring specific model strengths, such as low hallucination or lower cost of inference. MEDIC’s multifaceted evaluation reveals these performance trade-offs, bridging the gap between theoretical capabilities and practical implementation in healthcare settings, ensuring that the most promising models are identified and adapted for diverse healthcare applications.

arxiv情報

著者 Praveen K Kanithi,Clément Christophe,Marco AF Pimentel,Tathagata Raha,Nada Saadi,Hamza Javed,Svetlana Maslenkova,Nasir Hayat,Ronnie Rajan,Shadab Khan
発行日 2024-09-11 14:44:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク