Explanatory Argument Extraction of Correct Answers in Resident Medical Exams

要約

医療専門家の日常的な活動を支援するために必要な技術を開発することは、現在、人工知能の研究分野でホットな話題となっている。そのため、最近、人間とAIとの対話の仲介ツールとして自然言語を使用し、エビデンスに基づく医療(EBM)における情報抽出を容易にすることを目的として、多数の大規模言語モデル(LLM)と自動ベンチマークが提案されている。最も代表的なベンチマークは、多肢選択式か長文回答に限定されており、英語版しかない。これらの欠点に対処するため、本稿では、これまでの研究とは異なり、(i)正解の説明だけでなく、不正解の理由を説明する論拠も含む、(ii)解説は、スペインの臨床研修医試験の問題に答えるために医師によって書かれたものである、新しいデータセットを提示する。さらに、この新しいベンチマークにより、医師が書いた正解の説明を特定するという新しい抽出タスクを設定することができる。さらに、この設定の利点は、抽出的QAパラダイムを活用することで、医療専門家によるコストのかかる手動評価に頼ることなく、LLMのパフォーマンスを自動的に評価できることである。スペイン語の言語モデルを用いた包括的な実験から、多言語モデルの方が単言語モデルよりも優れている場合があり、医療ドメインに適応したモデルよりも優れている場合さえあることが示された。さらに、単言語モデルの結果はまちまちであり、小型で劣るはずのモデルが競争力を発揮している。いずれにせよ、得られた結果は、我々の新しいデータセットとアプローチが、医療従事者が医学的な質問に対して適切なエビデンスに基づく説明を特定するのを助ける効果的な手法になり得ることを示している。

要約(オリジナル)

Developing the required technology to assist medical experts in their everyday activities is currently a hot topic in the Artificial Intelligence research field. Thus, a number of large language models (LLMs) and automated benchmarks have recently been proposed with the aim of facilitating information extraction in Evidence-Based Medicine (EBM) using natural language as a tool for mediating in human-AI interaction. The most representative benchmarks are limited to either multiple-choice or long-form answers and are available only in English. In order to address these shortcomings, in this paper we present a new dataset which, unlike previous work: (i) includes not only explanatory arguments for the correct answer, but also arguments to reason why the incorrect answers are not correct; (ii) the explanations are written originally by medical doctors to answer questions from the Spanish Residency Medical Exams. Furthermore, this new benchmark allows us to setup a novel extractive task which consists of identifying the explanation of the correct answer written by medical doctors. An additional benefit of our setting is that we can leverage the extractive QA paradigm to automatically evaluate performance of LLMs without resorting to costly manual evaluation by medical experts. Comprehensive experimentation with language models for Spanish shows that sometimes multilingual models fare better than monolingual ones, even outperforming models which have been adapted to the medical domain. Furthermore, results across the monolingual models are mixed, with supposedly smaller and inferior models performing competitively. In any case, the obtained results show that our novel dataset and approach can be an effective technique to help medical practitioners in identifying relevant evidence-based explanations for medical questions.

arxiv情報

著者 Iakes Goenaga,Aitziber Atutxa,Koldo Gojenola,Maite Oronoz,Rodrigo Agerri
発行日 2023-12-01 13:22:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク