要約
大規模言語モデル (LLM) が医療分野で注目を集めるにつれ、人口統計上の偏りの影響を受けやすいという懸念が高まっています。
性別や民族など、多様な患者層にわたる医療質問に対する LLM の反応を評価するために設計された新しいベンチマークである {DiversityMedQA} を紹介します。
医療委員会の試験問題で構成される MedQA データセットからの質問を撹乱することで、さまざまな患者プロファイルにわたる医療診断の微妙な違いを捉えるベンチマークを作成しました。
私たちの調査結果では、これらの人口動態の変動に対してテストした場合、モデルのパフォーマンスに顕著な差異があることが明らかになりました。
さらに、摂動が正確であることを保証するために、各摂動を検証するフィルタリング戦略も提案します。
DiversityMedQA をリリースすることで、LLM 医療診断における人口統計上の偏りを評価し、軽減するためのリソースを提供します。
要約(オリジナル)
As large language models (LLMs) gain traction in healthcare, concerns about their susceptibility to demographic biases are growing. We introduce {DiversityMedQA}, a novel benchmark designed to assess LLM responses to medical queries across diverse patient demographics, such as gender and ethnicity. By perturbing questions from the MedQA dataset, which comprises medical board exam questions, we created a benchmark that captures the nuanced differences in medical diagnosis across varying patient profiles. Our findings reveal notable discrepancies in model performance when tested against these demographic variations. Furthermore, to ensure the perturbations were accurate, we also propose a filtering strategy that validates each perturbation. By releasing DiversityMedQA, we provide a resource for evaluating and mitigating demographic bias in LLM medical diagnoses.
arxiv情報
著者 | Rajat Rawat,Hudson McBride,Dhiyaan Nirmal,Rajarshi Ghosh,Jong Moon,Dhruv Alamuri,Sean O’Brien,Kevin Zhu |
発行日 | 2024-12-06 08:53:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google