MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering

要約

大規模言語モデル (LLM) には、医療専門家によるインタラクティブな意思決定サポートを支援する人工知能テクノロジーの開発を促進する可能性があり、そのことは医療 QA における競争力のあるパフォーマンスによって実証されています。
しかし、素晴らしいとはいえ、医療用途に必要な品質水準はまだ達成には程遠いです。
現在、LLM は時代遅れの知識と幻覚コンテンツを生成する傾向に依然として悩まされています。
さらに、医学的知識を評価するためのほとんどのベンチマークには、参照となるゴールドの説明が不足しており、LLM の予測の推論を評価することができないことを意味します。
最後に、英語以外の言語の LLM のベンチマークを考慮すると、状況は特に厳しいものになります。これは、私たちの知る限り、完全に無視されたトピックのままです。
これらの欠点に対処するために、このホワイトペーパーでは、医療質問応答における LLM を評価するための医療検査に基づく初の多言語ベンチマークである MedExpQA を紹介します。
私たちの知る限り、MedExpQA には、LLM のパフォーマンスと比較するためのさまざまなゴールドベースの上限を確立するために活用できる、医師によって書かれた参照ゴールドの説明が初めて含まれています。
ゴールドリファレンスの説明と検索拡張生成 (RAG) アプローチの両方を使用した包括的な多言語実験により、LLM のパフォーマンスには、特に英語以外の言語でまだ改善の余地が大きいことが示されています。
さらに、最先端の RAG 手法を使用しているにもかかわらず、私たちの結果は、医療質問応答の下流の評価結果にプラスの影響を与える可能性がある、すぐに利用できる医学知識を取得して統合することの難しさを示しています。
これまでのところ、ベンチマークは 4 つの言語で利用できますが、この作業により他の言語へのさらなる開発が促進されることを期待しています。

要約(オリジナル)

Large Language Models (LLMs) have the potential of facilitating the development of Artificial Intelligence technology to assist medical experts for interactive decision support, which has been demonstrated by their competitive performances in Medical QA. However, while impressive, the required quality bar for medical applications remains far from being achieved. Currently, LLMs remain challenged by outdated knowledge and by their tendency to generate hallucinated content. Furthermore, most benchmarks to assess medical knowledge lack reference gold explanations which means that it is not possible to evaluate the reasoning of LLMs predictions. Finally, the situation is particularly grim if we consider benchmarking LLMs for languages other than English which remains, as far as we know, a totally neglected topic. In order to address these shortcomings, in this paper we present MedExpQA, the first multilingual benchmark based on medical exams to evaluate LLMs in Medical Question Answering. To the best of our knowledge, MedExpQA includes for the first time reference gold explanations written by medical doctors which can be leveraged to establish various gold-based upper-bounds for comparison with LLMs performance. Comprehensive multilingual experimentation using both the gold reference explanations and Retrieval Augmented Generation (RAG) approaches show that performance of LLMs still has large room for improvement, especially for languages other than English. Furthermore, and despite using state-of-the-art RAG methods, our results also demonstrate the difficulty of obtaining and integrating readily available medical knowledge that may positively impact results on downstream evaluations for Medical Question Answering. So far the benchmark is available in four languages, but we hope that this work may encourage further development to other languages.

arxiv情報

著者 Iñigo Alonso,Maite Oronoz,Rodrigo Agerri
発行日 2024-04-08 15:03:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク