要約
臨床質問応答システムは、臨床医の質問に対して適切かつタイムリーな回答を提供できる可能性があります。
それにもかかわらず、これまでの進歩にもかかわらず、臨床現場でのこれらのシステムの導入は遅れています。
問題の 1 つは、医療専門家の現実世界のニーズを反映した質問回答データセットが不足していることです。
この研究では、人間と LLM によって生成された現実的な臨床質問のデータセットである RealMedQA を紹介します。
QA ペアを生成および検証するプロセスについて説明し、BioASQ および RealMedQA のいくつかの QA モデルを評価して、質問に対する回答を一致させる相対的な難易度を評価します。
「理想的な」QA ペアを生成するには、LLM の方がコスト効率が高いことを示します。
さらに、結果によれば、BioASQ よりも質問と回答の語彙類似性が低く、上位 2 つの QA モデルにさらなる課題をもたらしています。
さらなる研究を促進するために、コードとデータセットを公開します。
要約(オリジナル)
Clinical question answering systems have the potential to provide clinicians with relevant and timely answers to their questions. Nonetheless, despite the advances that have been made, adoption of these systems in clinical settings has been slow. One issue is a lack of question-answering datasets which reflect the real-world needs of health professionals. In this work, we present RealMedQA, a dataset of realistic clinical questions generated by humans and an LLM. We describe the process for generating and verifying the QA pairs and assess several QA models on BioASQ and RealMedQA to assess the relative difficulty of matching answers to questions. We show that the LLM is more cost-efficient for generating ‘ideal’ QA pairs. Additionally, we achieve a lower lexical similarity between questions and answers than BioASQ which provides an additional challenge to the top two QA models, as per the results. We release our code and our dataset publicly to encourage further research.
arxiv情報
著者 | Gregory Kell,Angus Roberts,Serge Umansky,Yuti Khare,Najma Ahmed,Nikhil Patel,Chloe Simela,Jack Coumbe,Julian Rozario,Ryan-Rhys Griffiths,Iain J. Marshall |
発行日 | 2024-08-16 09:32:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google