What Does Neuro Mean to Cardio? Investigating the Role of Clinical Specialty Data in Medical LLMs

要約

このホワイトペーパーでは、微調整された臨床専門分野で大規模な言語モデルをベンチマークするための英語の医療質問(QA)データセットであるS-Medqaを紹介します。
S-MEDQAを使用して、医療QAの知識の強烈なシナリオでの知識注入に関連する一般的な仮説の適用可能性を確認し、1)専門のデータに関するデータのトレーニングは、その専門性の最高のパフォーマンスにつながるわけではなく、2)微調整された専門の微調整に関係なく、すべての特殊な用語のトークン確率に関係しています。
したがって、私たちは、知識の注入ではなく、主にドメインシフト(一般的な医療)からの改善の利益がもたらされ、医療ドメインでの微調整データの役割を再考することを示唆していると考えています。
S-MEDQAとすべての実験を研究コミュニティに再現するために必要なすべてのコードをリリースします。

要約(オリジナル)

In this paper, we introduce S-MedQA, an English medical question-answering (QA) dataset for benchmarking large language models in fine-grained clinical specialties. We use S-MedQA to check the applicability of a popular hypothesis related to knowledge injection in the knowledge-intense scenario of medical QA, and show that: 1) training on data from a speciality does not necessarily lead to best performance on that specialty and 2) regardless of the specialty fine-tuned on, token probabilities of clinically relevant terms for all specialties increase consistently. Thus, we believe improvement gains come mostly from domain shifting (e.g., general to medical) rather than knowledge injection and suggest rethinking the role of fine-tuning data in the medical domain. We release S-MedQA and all code needed to reproduce all our experiments to the research community.

arxiv情報

著者 Xinlan Yan,Di Wu,Yibin Lei,Christof Monz,Iacer Calixto
発行日 2025-05-26 13:41:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク