Evaluating Bias in Retrieval-Augmented Medical Question-Answering Systems

要約

検索された生成(RAG)モデルを搭載した医療QAシステムは、臨床的意思決定をサポートしますが、健康の人種、性別、社会的決定要因に関連するバイアスを導入する可能性があります。
人口統計に敏感なクエリを調べ、検索の矛盾を測定することにより、RAGベースのLLMのバイアスを体系的に評価します。
MMLUやMEDMCQAなどのデータセットを使用して、検索の重複と正確性の格差を分析します。
私たちの調査結果は、RAGパイプライン内のかなりの人口統計学的格差を明らかにし、公平性を確保するための公平性を明示的に説明する検索方法の重要な必要性を強調しています。

要約(オリジナル)

Medical QA systems powered by Retrieval-Augmented Generation (RAG) models support clinical decision-making but may introduce biases related to race, gender, and social determinants of health. We systematically evaluate biases in RAG-based LLM by examining demographic-sensitive queries and measuring retrieval discrepancies. Using datasets like MMLU and MedMCQA, we analyze retrieval overlap and correctness disparities. Our findings reveal substantial demographic disparities within RAG pipelines, emphasizing the critical need for retrieval methods that explicitly account for fairness to ensure equitable clinical decision-making.

arxiv情報

著者 Yuelyu Ji,Hang Zhang,Yanshan Wang
発行日 2025-03-19 17:36:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク