Towards objective and systematic evaluation of bias in artificial intelligence for medical imaging

要約

臨床タスク用に医療画像を使用してトレーニングされた人工知能 (AI) モデルは、サブグループ間のパフォーマンスの格差という形で偏りを示すことがよくあります。
現実世界の医療画像データにおけるバイアスの原因をすべて簡単に特定できるわけではないため、それらのバイアスがモデルにどのようにエンコードされるか、また、バイアス緩和方法がパフォーマンスの格差を改善するのにどの程度の能力があるかを包括的に評価することは困難です。
この記事では、医療画像のバイアスが AI モデルに及ぼす影響を体系的かつ客観的に調査するための新しい分析フレームワークを紹介します。
私たちは、既知の疾患影響とバイアス源を含む合成磁気共鳴画像を生成するツールを使用して、医療画像 AI のバイアスを評価するための制御されたインシリコ試験を実施するためのこのフレームワークを開発およびテストしました。
実現可能性は、畳み込みニューラル ネットワーク (CNN) 分類器に対するシミュレートされたバイアス効果の影響と 3 つのバイアス緩和戦略の有効性を測定する 3 つの反事実バイアス シナリオを使用することによって実証されます。
分析の結果、CNN が合成データセットでトレーニングされた場合、シミュレートされたバイアスにより、予想されるサブグループのパフォーマンス格差が生じることが明らかになりました。
さらに、再重み付けが、この設定で最も成功したバイアス軽減戦略であることが特定され、このフレームワークを使用して、説明可能な AI 手法がモデル内のバイアスの発現を調査するのにどのように役立つかを実証しました。
医療画像データセットには多くの未知のバイアス源が存在する可能性があることを考えると、公正な AI モデルを開発することはかなりの課題です。
この研究では、堅牢で責任ある臨床 AI の開発をサポートできる、深層学習パイプラインに対するバイアスと緩和戦略の影響を客観的に研究するための新しい方法論を紹介します。

要約(オリジナル)

Artificial intelligence (AI) models trained using medical images for clinical tasks often exhibit bias in the form of disparities in performance between subgroups. Since not all sources of biases in real-world medical imaging data are easily identifiable, it is challenging to comprehensively assess how those biases are encoded in models, and how capable bias mitigation methods are at ameliorating performance disparities. In this article, we introduce a novel analysis framework for systematically and objectively investigating the impact of biases in medical images on AI models. We developed and tested this framework for conducting controlled in silico trials to assess bias in medical imaging AI using a tool for generating synthetic magnetic resonance images with known disease effects and sources of bias. The feasibility is showcased by using three counterfactual bias scenarios to measure the impact of simulated bias effects on a convolutional neural network (CNN) classifier and the efficacy of three bias mitigation strategies. The analysis revealed that the simulated biases resulted in expected subgroup performance disparities when the CNN was trained on the synthetic datasets. Moreover, reweighing was identified as the most successful bias mitigation strategy for this setup, and we demonstrated how explainable AI methods can aid in investigating the manifestation of bias in the model using this framework. Developing fair AI models is a considerable challenge given that many and often unknown sources of biases can be present in medical imaging datasets. In this work, we present a novel methodology to objectively study the impact of biases and mitigation strategies on deep learning pipelines, which can support the development of clinical AI that is robust and responsible.

arxiv情報

著者 Emma A. M. Stanley,Raissa Souza,Anthony Winder,Vedant Gulve,Kimberly Amador,Matthias Wilms,Nils D. Forkert
発行日 2024-07-01 16:30:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG パーマリンク