Better to Ask in English: Cross-Lingual Evaluation of Large Language Models for Healthcare Queries

要約

大規模言語モデル (LLM) は、一般大衆が情報にアクセスして情報を消費する方法を変革しています。
その影響力は、ヘルスケアなどの重要な分野で特に顕著であり、一般の人々が日常の質問に対する会話エージェントとして LLM を利用することが増えています。
LLM は優れた言語理解と生成能力を示していますが、これらのリスクの高い分野では安全性に関する懸念が依然として最も重要です。
さらに、LLM の開発は英語に不釣り合いに焦点を当てています。
これらの LLM が英語以外の言語のコンテキストでどのように機能するかは依然として不明であり、このギャップは、これらのシステムの実世界での使用における公平性を確保するために重要です。この論文は、多言語対話としての LLM の有効性を調査するためのフレームワークを提供します。
医療に関する問い合わせのためのシステム。
私たちの経験的に導出されたフレームワーク XlingEval は、人間が作成した自然主義的な健康関連の質問に対する LLM の応答を評価するための 3 つの基本基準、正確性、一貫性、検証可能性に焦点を当てています。
英語、スペイン語、中国語、ヒンディー語を含む 4 つの主要な世界言語を対象とした、専門家の注釈が付けられた 3 つの大規模な健康 Q&A データセットにわたる広範な実験と、アルゴリズムと人間による評価戦略の融合を通じて、私たちは、LLM の回答に顕著な差があることを発見しました。
これらの言語は、言語を越えた機能の強化の必要性を示しています。
さらに、医療分野における LLM の多言語機能を調べるためのクロスリンガル ベンチマークである XlingHealth を提案します。
私たちの調査結果は、これらのモデルの言語を超えた能力を強化し、すべての人がアクセスできる公平な情報エコシステムを提供することが差し迫った必要性を強調しています。

要約(オリジナル)

Large language models (LLMs) are transforming the ways the general public accesses and consumes information. Their influence is particularly pronounced in pivotal sectors like healthcare, where lay individuals are increasingly appropriating LLMs as conversational agents for everyday queries. While LLMs demonstrate impressive language understanding and generation proficiencies, concerns regarding their safety remain paramount in these high-stake domains. Moreover, the development of LLMs is disproportionately focused on English. It remains unclear how these LLMs perform in the context of non-English languages, a gap that is critical for ensuring equity in the real-world use of these systems.This paper provides a framework to investigate the effectiveness of LLMs as multi-lingual dialogue systems for healthcare queries. Our empirically-derived framework XlingEval focuses on three fundamental criteria for evaluating LLM responses to naturalistic human-authored health-related questions: correctness, consistency, and verifiability. Through extensive experiments on four major global languages, including English, Spanish, Chinese, and Hindi, spanning three expert-annotated large health Q&A datasets, and through an amalgamation of algorithmic and human-evaluation strategies, we found a pronounced disparity in LLM responses across these languages, indicating a need for enhanced cross-lingual capabilities. We further propose XlingHealth, a cross-lingual benchmark for examining the multilingual capabilities of LLMs in the healthcare context. Our findings underscore the pressing need to bolster the cross-lingual capacities of these models, and to provide an equitable information ecosystem accessible to all.

arxiv情報

著者 Yiqiao Jin,Mohit Chandra,Gaurav Verma,Yibo Hu,Munmun De Choudhury,Srijan Kumar
発行日 2023-10-23 17:47:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク