要約
ChatGPT のような大規模言語モデル (LLM) は、医療分野で大きな可能性を示しており、多くの場合、USMLE で見られるものと同様の多肢選択質問 (MCQ) を使用して評価されます。
医学教育では MCQ が普及しているにもかかわらず、MCQ には限界があり、LLM を評価する際にさらに悪化する可能性があります。
LLM のパフォーマンスを評価する際の MCQ の有効性を評価するために、存在しない腺であるグリアノレックスに焦点を当てた架空の医療ベンチマークを開発しました。
このアプローチにより、LLM の知識を受験能力から分離することができました。
私たちは GPT-4 を使用して Glianorex に関する包括的な教科書を英語とフランス語の両方で作成し、対応する多肢選択問題を両方の言語で作成しました。
私たちは、ゼロショット設定でこれらの質問を使用して、さまざまなオープンソース、プロプライエタリ、およびドメイン固有の LLM を評価しました。
モデルは平均スコア約 67% を達成しましたが、大型モデルと小型モデルではパフォーマンスに若干の違いがありました。
成績はフランス語よりも英語の方がわずかに高かった。
微調整された医療モデルでは、英語の基本バージョンと比べていくらかの改善が見られましたが、フランス語では改善されませんでした。
モデル全体で均一に高いパフォーマンスは、従来の MCQ ベースのベンチマークが LLM の臨床知識と推論能力を正確に測定せず、代わりにパターン認識スキルを強調している可能性があることを示唆しています。
この研究は、医療現場における LLM の真の能力をより適切に評価するための、より堅牢な評価方法の必要性を強調しています。
要約(オリジナル)
Large Language Models (LLMs) like ChatGPT demonstrate significant potential in the medical field, often evaluated using multiple-choice questions (MCQs) similar to those found on the USMLE. Despite their prevalence in medical education, MCQs have limitations that might be exacerbated when assessing LLMs. To evaluate the effectiveness of MCQs in assessing the performance of LLMs, we developed a fictional medical benchmark focused on a non-existent gland, the Glianorex. This approach allowed us to isolate the knowledge of the LLM from its test-taking abilities. We used GPT-4 to generate a comprehensive textbook on the Glianorex in both English and French and developed corresponding multiple-choice questions in both languages. We evaluated various open-source, proprietary, and domain-specific LLMs using these questions in a zero-shot setting. The models achieved average scores around 67%, with minor performance differences between larger and smaller models. Performance was slightly higher in English than in French. Fine-tuned medical models showed some improvement over their base versions in English but not in French. The uniformly high performance across models suggests that traditional MCQ-based benchmarks may not accurately measure LLMs’ clinical knowledge and reasoning abilities, instead highlighting their pattern recognition skills. This study underscores the need for more robust evaluation methods to better assess the true capabilities of LLMs in medical contexts.
arxiv情報
著者 | Maxime Griot,Jean Vanderdonckt,Demet Yuksel,Coralie Hemptinne |
発行日 | 2024-06-04 15:08:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google