TCMD: A Traditional Chinese Medicine QA Dataset for Evaluating Large Language Models

要約

大規模言語モデル (LLM) における最近の前例のない進歩により、高度な医療ドメイン モデルが確立され、医学界が推進されました。
ただし、医療データセットの収集が限られているため、この分野の進歩を評価するために利用できる包括的なベンチマークはわずかしかありません。
この論文では、TCMD と呼ばれる、中医学の検査タスクを解決するための大量の手動指示を含む、新しい医療質問応答 (QA) データセットを紹介します。
具体的には、当社の TCMD は、注釈付きの医学的主題とともにさまざまな領域にわたる大量の質問を収集し、TCM 領域における LLM の能力を包括的に評価することをサポートします。
さまざまな一般的な LLM と医療分野固有の LLM の広範な評価が行われます。
さらに、ランダム性を導入することで TCM QA タスクを解決する際の現在の LLM の堅牢性も分析します。
実験結果の矛盾は、QA タスクを解決する際の現在の LLM の欠点も明らかにしています。
また、私たちのデータセットが TCM 分野における LLM の開発をさらに促進できることも期待しています。

要約(オリジナル)

The recently unprecedented advancements in Large Language Models (LLMs) have propelled the medical community by establishing advanced medical-domain models. However, due to the limited collection of medical datasets, there are only a few comprehensive benchmarks available to gauge progress in this area. In this paper, we introduce a new medical question-answering (QA) dataset that contains massive manual instruction for solving Traditional Chinese Medicine examination tasks, called TCMD. Specifically, our TCMD collects massive questions across diverse domains with their annotated medical subjects and thus supports us in comprehensively assessing the capability of LLMs in the TCM domain. Extensive evaluation of various general LLMs and medical-domain-specific LLMs is conducted. Moreover, we also analyze the robustness of current LLMs in solving TCM QA tasks by introducing randomness. The inconsistency of the experimental results also reveals the shortcomings of current LLMs in solving QA tasks. We also expect that our dataset can further facilitate the development of LLMs in the TCM area.

arxiv情報

著者 Ping Yu,Kaitao Song,Fengchen He,Ming Chen,Jianfeng Lu
発行日 2024-06-07 13:48:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク