Evaluating and Mitigating Bias in AI-Based Medical Text Generation

要約

人工知能(AI)システム、特に深い学習モデルに基づくシステムは、医療用途での専門家レベルのパフォーマンスをますます達成しています。
ただし、このようなAIシステムは、人間のバイアスを反映して増幅し、歴史的に不十分な集団におけるパフォーマンスの質を低下させる可能性があるという懸念が高まっています。
公平性の問題は、医療画像分類分野でかなりの研究関心を集めていますが、テキスト生成ドメインでは理解されています。
この研究では、医療分野内のテキスト生成における公平性の問題を調査し、交差グループ、さまざまなモデルスケール、さまざまな評価メトリックなど、さまざまな人種、性別、年齢層にわたる重大なパフォーマンスの矛盾を観察します。
この公平性の問題を軽減するために、これらの不パフォーマンスのグループを選択的に最適化してバイアスを減らすアルゴリズムを提案します。
選択ルールでは、単語レベルの精度だけでなく、ターゲット参照に対する病理学の精度も考慮し、効果的なモデルトレーニングのためにプロセス全体が完全に微分可能であることを保証します。
複数のバックボーン、データセット、およびモダリティにわたる評価は、提案されているアルゴリズムが全体的なパフォーマンスを損なうことなくテキスト生成の公平性を高めることを示しています。
具体的には、異なるメトリックのさまざまなグループ間の格差は、アルゴリズムで30%以上減少しましたが、テキスト生成の精度の相対的な変化は通常2%以内でした。
ディープラーニングモデルによって生成されるバイアスを減らすことにより、提案されたアプローチは、医療ドメインのテキスト生成診断の公平性と信頼性に関する懸念を潜在的に軽減する可能性があります。
私たちのコードは、https://github.com/iriscxy/genfairでさらなる調査を促進するために公開されています。

要約(オリジナル)

Artificial intelligence (AI) systems, particularly those based on deep learning models, have increasingly achieved expert-level performance in medical applications. However, there is growing concern that such AI systems may reflect and amplify human bias, and reduce the quality of their performance in historically under-served populations. The fairness issue has attracted considerable research interest in the medical imaging classification field, yet it remains understudied in the text generation domain. In this study, we investigate the fairness problem in text generation within the medical field and observe significant performance discrepancies across different races, sexes, and age groups, including intersectional groups, various model scales, and different evaluation metrics. To mitigate this fairness issue, we propose an algorithm that selectively optimizes those underperformed groups to reduce bias. The selection rules take into account not only word-level accuracy but also the pathology accuracy to the target reference, while ensuring that the entire process remains fully differentiable for effective model training. Our evaluations across multiple backbones, datasets, and modalities demonstrate that our proposed algorithm enhances fairness in text generation without compromising overall performance. Specifically, the disparities among various groups across different metrics were diminished by more than 30% with our algorithm, while the relative change in text generation accuracy was typically within 2%. By reducing the bias generated by deep learning models, our proposed approach can potentially alleviate concerns about the fairness and reliability of text generation diagnosis in medical domain. Our code is publicly available to facilitate further research at https://github.com/iriscxy/GenFair.

arxiv情報

著者 Xiuying Chen,Tairan Wang,Juexiao Zhou,Zirui Song,Xin Gao,Xiangliang Zhang
発行日 2025-04-24 06:10:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク