Bias patterns in the application of LLMs for clinical decision support: A comprehensive study

要約

大規模言語モデル (LLM) は、臨床意思決定プロセスに情報を提供する強力な候補として浮上しています。
これらのモデルはデジタル環境の形成においてますます重要な役割を果たしていますが、医療アプリケーションでは 2 つの懸念が増大しています。1) LLM は患者の保護された属性 (人種など) に基づいて社会的偏見をどの程度示すのか、2) 設計の選択はどのように行われるのか
(アーキテクチャ設計やプロンプト戦略など) 観察されたバイアスに影響を与えるか?
これらの質問に厳密に答えるために、バイアス評価用に標準化された臨床ビネット (患者の説明) を使用して、3 つの質問応答 (QA) データセットにわたって 8 つの人気のある LLM を評価しました。
私たちはレッドチーム戦略を採用し、汎用モデルと臨床的に訓練されたモデルの両方を比較しながら、人口動態が LLM の出力にどのような影響を与えるかを分析します。
私たちの広範な実験により、保護されたグループ間でのさまざまな差異(いくつかは重大な差異)が明らかになりました。
また、大規模なモデルが必ずしもバイアスが少ないとは限らないことや、医療データに基づいて微調整されたモデルが必ずしも汎用モデルよりも優れているとは限らないなど、直感に反するパターンもいくつか観察されています。
さらに、私たちの研究は、プロンプトデザインがバイアスパターンに与える影響を実証し、特定の言い回しがバイアスパターンに影響を与える可能性があり、リフレクションタイプのアプローチ(思考の連鎖など)がバイアスのある結果を効果的に軽減できることを示しています。
以前の研究と同様に、臨床意思決定支援アプリケーションで使用される LLM の追加の評価、精査、強化を求めます。

要約(オリジナル)

Large Language Models (LLMs) have emerged as powerful candidates to inform clinical decision-making processes. While these models play an increasingly prominent role in shaping the digital landscape, two growing concerns emerge in healthcare applications: 1) to what extent do LLMs exhibit social bias based on patients’ protected attributes (like race), and 2) how do design choices (like architecture design and prompting strategies) influence the observed biases? To answer these questions rigorously, we evaluated eight popular LLMs across three question-answering (QA) datasets using clinical vignettes (patient descriptions) standardized for bias evaluations. We employ red-teaming strategies to analyze how demographics affect LLM outputs, comparing both general-purpose and clinically-trained models. Our extensive experiments reveal various disparities (some significant) across protected groups. We also observe several counter-intuitive patterns such as larger models not being necessarily less biased and fined-tuned models on medical data not being necessarily better than the general-purpose models. Furthermore, our study demonstrates the impact of prompt design on bias patterns and shows that specific phrasing can influence bias patterns and reflection-type approaches (like Chain of Thought) can reduce biased outcomes effectively. Consistent with prior studies, we call on additional evaluations, scrutiny, and enhancement of LLMs used in clinical decision support applications.

arxiv情報

著者 Raphael Poulain,Hamed Fayyaz,Rahmatollah Beheshti
発行日 2024-04-23 15:52:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク