要約
医学の大規模な言語モデル(LLM)を評価することは重要です。なぜなら、医療アプリケーションにはエラーの余地がほとんどなく、高精度が必要だからです。
現在の医療ベンチマークには、3つの主要なタイプがあります。健康診断ベース、包括的な医療、および専門的な評価です。
ただし、これらのベンチマークには、問題の設計(主に複数選択)、データソース(多くの場合、実際の臨床シナリオから派生していない)、および評価方法(複雑な推論の評価が不十分)に制限があります。
これらの問題に対処するために、LLMEVAL-MEDを提示します。これは、実世界の電子健康記録と専門家が設計した臨床シナリオから作成された2,996の質問を含む5つのコア医療分野をカバーする新しいベンチマークです。
また、自動評価パイプラインを設計し、専門家が開発したチェックリストをLLM-As-Judgeフレームワークに組み込みます。
さらに、私たちの方法論は、信頼性を確保するために専門家のフィードバックに基づいて、ヒューマンマシン契約分析、動的に改良されたチェックリストとプロンプトを通じてマシンのスコアリングを検証します。
LLMEVAL-MEDで3つのカテゴリ(専門的な医療モデル、オープンソースモデル、クローズドソースモデル)にわたって13のLLMを評価し、医療ドメインにおけるLLMの安全で効果的な展開のための貴重な洞察を提供します。
データセットはhttps://github.com/llmeval/llmeval-medでリリースされます。
要約(オリジナル)
Evaluating large language models (LLMs) in medicine is crucial because medical applications require high accuracy with little room for error. Current medical benchmarks have three main types: medical exam-based, comprehensive medical, and specialized assessments. However, these benchmarks have limitations in question design (mostly multiple-choice), data sources (often not derived from real clinical scenarios), and evaluation methods (poor assessment of complex reasoning). To address these issues, we present LLMEval-Med, a new benchmark covering five core medical areas, including 2,996 questions created from real-world electronic health records and expert-designed clinical scenarios. We also design an automated evaluation pipeline, incorporating expert-developed checklists into our LLM-as-Judge framework. Furthermore, our methodology validates machine scoring through human-machine agreement analysis, dynamically refining checklists and prompts based on expert feedback to ensure reliability. We evaluate 13 LLMs across three categories (specialized medical models, open-source models, and closed-source models) on LLMEval-Med, providing valuable insights for the safe and effective deployment of LLMs in medical domains. The dataset is released in https://github.com/llmeval/LLMEval-Med.
arxiv情報
著者 | Ming Zhang,Yujiong Shen,Zelin Li,Huayu Sha,Binze Hu,Yuhui Wang,Chenhao Huang,Shichun Liu,Jingqi Tong,Changhao Jiang,Mingxu Chai,Zhiheng Xi,Shihan Dou,Tao Gui,Qi Zhang,Xuanjing Huang |
発行日 | 2025-06-04 15:43:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google