CMB: A Comprehensive Medical Benchmark in Chinese

要約

大規模言語モデル (LLM) は、医学に大きな進歩をもたらす可能性をもたらします。
標準化された医療ベンチマークの確立は、進行を測定するための基本的な基礎となります。
ただし、さまざまな地域の医療環境には、中国国内での伝統的な漢方薬の普及や重要性など、それぞれの地域の特徴があります。
したがって、英語ベースの医療評価を単に翻訳すると、地域によっては \textit{文脈の不一致} が生じる可能性があります。
この問題を解決するために、私たちは、中国語の総合医療ベンチマークである CMB と呼ばれるローカライズされた医療ベンチマークを提案します。このベンチマークは、中国語本来の言語と文化の枠組みに完全に基づいて設計されています。
伝統的な中国医学はこの評価に不可欠ですが、それがすべてを構成するわけではありません。
このベンチマークを使用して、ChatGPT、GPT-4、中国専用 LLM、医療ドメインに特化した LLM など、いくつかの著名な大規模 LLM を評価しました。
私たちは、このベンチマークが既存の医療用 LLM の直接の経験を提供し、中国国内での医療用 LLM の広範な導入と強化を促進することを願っています。
私たちのデータとコードは https://github.com/FreedomIntelligence/CMB で公開されています。

要約(オリジナル)

Large Language Models (LLMs) provide a possibility to make a great breakthrough in medicine. The establishment of a standardized medical benchmark becomes a fundamental cornerstone to measure progression. However, medical environments in different regions have their local characteristics, e.g., the ubiquity and significance of traditional Chinese medicine within China. Therefore, merely translating English-based medical evaluation may result in \textit{contextual incongruities} to a local region. To solve the issue, we propose a localized medical benchmark called CMB, a Comprehensive Medical Benchmark in Chinese, designed and rooted entirely within the native Chinese linguistic and cultural framework. While traditional Chinese medicine is integral to this evaluation, it does not constitute its entirety. Using this benchmark, we have evaluated several prominent large-scale LLMs, including ChatGPT, GPT-4, dedicated Chinese LLMs, and LLMs specialized in the medical domain. We hope this benchmark provide first-hand experience in existing LLMs for medicine and also facilitate the widespread adoption and enhancement of medical LLMs within China. Our data and code are publicly available at https://github.com/FreedomIntelligence/CMB.

arxiv情報

著者 Xidong Wang,Guiming Hardy Chen,Dingjie Song,Zhiyi Zhang,Zhihong Chen,Qingying Xiao,Feng Jiang,Jianquan Li,Xiang Wan,Benyou Wang,Haizhou Li
発行日 2024-04-04 15:16:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク