An Empirical Study on the Fairness of Foundation Models for Multi-Organ Image Segmentation

要約

Segment Anything Model (SAM) などのセグメンテーション基盤モデルは、医療画像コミュニティでの関心が高まっています。
初期の先駆的な研究は主に、全体的な精度と効率の観点から SAM のパフォーマンスを評価および改善することに焦点を当てていましたが、公平性の考慮事項にはほとんど注意が払われませんでした。
この見落としにより、nnU-Net のようなタスク固有の深層学習モデルに見られるバイアスを反映する可能性のあるパフォーマンス バイアスの可能性について疑問が生じます。
この論文では、大規模なセグメンテーション基盤モデルに関する公平性のジレンマを調査しました。
私たちは、合計 1,056 人の健康な被験者からの肝臓、腎臓、脾臓、肺、大動脈を含む臓器の 3D MRI および CT スキャンのベンチマーク データセットを、専門的なセグメンテーションを使用して前向きにキュレートしています。
重要なのは、微妙な公平性分析を容易にするために、各被験者の性別、年齢、体格指数 (BMI) などの人口統計の詳細を文書化することです。
当社では、オリジナルの SAM、医療 SAM、SAT モデルなど、医療画像セグメンテーションの最先端の基礎モデルをテストして、さまざまな人口統計グループにわたるセグメンテーションの有効性を評価し、格差を特定します。
さまざまな交絡要因を考慮した私たちの包括的な分析により、これらの基本モデル内の公平性に関する重大な懸念が明らかになりました。
さらに、私たちの調査結果は、ダイス類似係数などの全体的なセグメンテーション指標の不一致だけでなく、セグメンテーションエラーの空間分布の大きな変動も強調しており、医療画像のセグメンテーションにおける公平性を確保する上での微妙な課題の経験的証拠を提供しています。

要約(オリジナル)

The segmentation foundation model, e.g., Segment Anything Model (SAM), has attracted increasing interest in the medical image community. Early pioneering studies primarily concentrated on assessing and improving SAM’s performance from the perspectives of overall accuracy and efficiency, yet little attention was given to the fairness considerations. This oversight raises questions about the potential for performance biases that could mirror those found in task-specific deep learning models like nnU-Net. In this paper, we explored the fairness dilemma concerning large segmentation foundation models. We prospectively curate a benchmark dataset of 3D MRI and CT scans of the organs including liver, kidney, spleen, lung and aorta from a total of 1056 healthy subjects with expert segmentations. Crucially, we document demographic details such as gender, age, and body mass index (BMI) for each subject to facilitate a nuanced fairness analysis. We test state-of-the-art foundation models for medical image segmentation, including the original SAM, medical SAM and SAT models, to evaluate segmentation efficacy across different demographic groups and identify disparities. Our comprehensive analysis, which accounts for various confounding factors, reveals significant fairness concerns within these foundational models. Moreover, our findings highlight not only disparities in overall segmentation metrics, such as the Dice Similarity Coefficient but also significant variations in the spatial distribution of segmentation errors, offering empirical evidence of the nuanced challenges in ensuring fairness in medical image segmentation.

arxiv情報

著者 Qin Li,Yizhe Zhang,Yan Li,Jun Lyu,Meng Liu,Longyu Sun,Mengting Sun,Qirong Li,Wenyue Mao,Xinran Wu,Yajing Zhang,Yinghua Chu,Shuo Wang,Chengyan Wang
発行日 2024-06-18 14:14:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV パーマリンク