Huatuo-26M, a Large-scale Chinese Medical QA Dataset

要約

タイトル:Huatuo-26M、中国最大規模の医療QAデータセット

要約:
– この論文では、2600万のQAペアを持つ最大の医療に関する質問回答(QA)データセットをリリースした。
– 我々は、検索と生成の両方の観点から、既存の多くの手法を我々のデータセットでベンチマークした。
– 実験結果は、既存のモデルが想定よりもはるかに低い性能を示し、リリースされたデータセットは依然として、事前学習された言語モデルの時代でも難しいことを示している。
– さらに、我々は提案されたデータセットの多くの側面における効果を実験的に示しました:(i)他のQAデータセットのトレーニングされたモデルをゼロショットで実現すること。(ii)検索追加生成(RAG)の外部知識として。(iii)QAペアを前処理したコーパスとして使用することで、既存の事前学習済み言語モデルを改善できること。
– このデータセットは、医療研究に貢献するだけでなく、患者や臨床医師の両方に利益をもたらすと考えられる。

要約(オリジナル)

In this paper, we release a largest ever medical Question Answering (QA) dataset with 26 million QA pairs. We benchmark many existing approaches in our dataset in terms of both retrieval and generation. Experimental results show that the existing models perform far lower than expected and the released dataset is still challenging in the pre-trained language model era. Moreover, we also experimentally show the benefit of the proposed dataset in many aspects: (i) trained models for other QA datasets in a zero-shot fashion; and (ii) as external knowledge for retrieval-augmented generation (RAG); and (iii) improving existing pre-trained language models by using the QA pairs as a pre-training corpus in continued training manner. We believe that this dataset will not only contribute to medical research but also facilitate both the patients and clinical doctors. See \url{https://github.com/FreedomIntelligence/Huatuo-26M}.

arxiv情報

著者 Jianquan Li,Xidong Wang,Xiangbo Wu,Zhiyi Zhang,Xiaolong Xu,Jie Fu,Prayag Tiwari,Xiang Wan,Benyou Wang
発行日 2023-05-02 15:33:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク