Reliable and diverse evaluation of LLM medical knowledge mastery

要約

医療専門の LLM にとって、医療知識を習得することは非常に重要です。
しかし、MedQA のような医療ベンチマークが存在するにもかかわらず、既存の知識ベースを最大限に活用して LLM の医療知識の習熟度を評価する統一フレームワークがまだ不足しています。
この研究では、特定の医療知識ベースの LLM を評価するために、信頼性が高く多様なテスト サンプルを動的に生成する新しいフレームワーク PretexEval を提案します。
テンプレートまたは LLM によってナレッジ ベースから直接生成されたテスト サンプルには、事実上の誤りが含まれている可能性があり、また多様性に欠けている可能性があることに気付きました。
これらの問題に対処するために、私たちは、述語等価変換を使用して特定の医療知識ポイントに対する一連のバリアントを生成する新しいスキーマを、提案された評価フレームワークに導入します。
最後に、これらの生成された述語バリアントはテキスト言語に変換され、LLM が特定の医学的事実の知識点を完全に習得しているかどうかを評価するための、一連の信頼できる多様なテスト サンプルが生成されます。
ここでは、臨床診断と治療に重要な 2 つの知識ベースに基づいて、12 のよく知られた LLM の医学的事実の知識の習得を体系的に調査するために、提案されたフレームワークを使用します。
評価結果は、いくつかの有名な公開ベンチマークでかなりの成功を収めているにもかかわらず、現在の LLM は医学知識を完全に習得する点で依然として重大な欠陥を示していることを示しています。
これらの新しい発見は、医療に特化した LLM の開発に貴重な洞察を提供し、現在の LLM が現実世界の医療シナリオに適用される前に、医療知識の包括的かつ徹底的な習得を緊急に強化する必要があることを強調しています。

要約(オリジナル)

Mastering medical knowledge is crucial for medical-specific LLMs. However, despite the existence of medical benchmarks like MedQA, a unified framework that fully leverages existing knowledge bases to evaluate LLMs’ mastery of medical knowledge is still lacking. In the study, we propose a novel framework PretexEval that dynamically generates reliable and diverse test samples to evaluate LLMs for any given medical knowledge base. We notice that test samples produced directly from knowledge bases by templates or LLMs may introduce factual errors and also lack diversity. To address these issues, we introduce a novel schema into our proposed evaluation framework that employs predicate equivalence transformations to produce a series of variants for any given medical knowledge point. Finally, these produced predicate variants are converted into textual language, resulting in a series of reliable and diverse test samples to evaluate whether LLMs fully master the given medical factual knowledge point. Here, we use our proposed framework to systematically investigate the mastery of medical factual knowledge of 12 well-known LLMs, based on two knowledge bases that are crucial for clinical diagnosis and treatment. The evaluation results illustrate that current LLMs still exhibit significant deficiencies in fully mastering medical knowledge, despite achieving considerable success on some famous public benchmarks. These new findings provide valuable insights for developing medical-specific LLMs, highlighting that current LLMs urgently need to strengthen their comprehensive and in-depth mastery of medical knowledge before being applied to real-world medical scenarios.

arxiv情報

著者 Yuxuan Zhou,Xien Liu,Chen Ning,Xiao Zhang,Ji Wu
発行日 2024-10-02 15:17:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク