Performance Gaps of Artificial Intelligence Models Screening Mammography — Towards Fair and Interpretable Models

要約

タイトル:マンモグラフィーのスクリーニングにおける人工知能モデルのパフォーマンスギャップ–公正で解釈可能なモデルに向けて

要約:
– 目的:スクリーニングマンモグラフィーにおける異常分類の失敗リスクの増加に関連する人口統計的および画像的特徴を分析すること。
– 材料と方法:エモリー・ブレスト・イメージング・データセット(EMBED)のデータを使用したこの後ろ向き研究は,2013年から2020年までの間,エモリー大学医療機関で撮影された115,931人のマンモグラフィーを含んでいます。臨床および画像データは,乳房画像報告およびデータシステム(BI-RADS)評価,異常の関心領域座標,画像特徴,病理学的結果,および患者の人口統計に含まれています。複数の深層学習モデルを開発して、スクリーニングマンモグラフィーの異常組織のパッチとランダムに選択された正常組織のパッチを区別しました。失分類の原因を評価するために、年齢、人種、病理学的結果、および画像的特徴によって定義されるサブグループ内でモデルのパフォーマンスを全体的に評価しました。
– 結果:テストセットサイズが5,810件(13,390パッチ)の場合、正常組織と異常組織のパッチを分類するためにトレーニングされたResNet152V2モデルは、92.6%(95%CI = 92.0-93.2%)の精度と受信操作特性曲線下面積0.975(95%CI = 0.972-0.978)を達成しました。より高い誤分類と関連する画像的特徴には,組織密度が高い(リスク比[RR]=1.649;p=.010、BI-RADS密度CおよびRR=2.026;p=.003、BI-RADS密度D)ことや、建築的な歪みの存在がある(RR=1.026;p<.001)ことがあります。
– 結論:異常組織の分類のための深層学習モデルは、スクリーニングマンモグラフィーにおいて良いパフォーマンスを発揮しながら、特定の画像的特徴によりパフォーマンスが低下することを示しました。この研究は、様々なサブグループによる乳房異常分類を系統的に評価した最初のものであり、バイアスのあるモデルパフォーマンスを経験する可能性のある人口サブグループをよりよく把握することができるようになりました。

要約(オリジナル)

Purpose: To analyze the demographic and imaging characteristics associated with increased risk of failure for abnormality classification in screening mammograms. Materials and Methods: This retrospective study used data from the Emory BrEast Imaging Dataset (EMBED) which includes mammograms from 115,931 patients imaged at Emory University Healthcare between 2013 to 2020. Clinical and imaging data includes Breast Imaging Reporting and Data System (BI-RADS) assessment, region of interest coordinates for abnormalities, imaging features, pathologic outcomes, and patient demographics. Multiple deep learning models were developed to distinguish between patches of abnormal tissue and randomly selected patches of normal tissue from the screening mammograms. We assessed model performance overall and within subgroups defined by age, race, pathologic outcome, and imaging characteristics to evaluate reasons for misclassifications. Results: On a test set size of 5,810 studies (13,390 patches), a ResNet152V2 model trained to classify normal versus abnormal tissue patches achieved an accuracy of 92.6% (95% CI = 92.0-93.2%), and area under the receiver operative characteristics curve 0.975 (95% CI = 0.972-0.978). Imaging characteristics associated with higher misclassifications of images include higher tissue densities (risk ratio [RR]=1.649; p=.010, BI-RADS density C and RR=2.026; p=.003, BI-RADS density D), and presence of architectural distortion (RR=1.026; p<.001). Conclusion: Even though deep learning models for abnormality classification can perform well in screening mammography, we demonstrate certain imaging features that result in worse model performance. This is the first such work to systematically evaluate breast abnormality classification by various subgroups and better-informed developers and end-users of population subgroups which are likely to experience biased model performance.

arxiv情報

著者 Linglin Zhang,Beatrice Brown-Mulry,Vineela Nalla,InChan Hwang,Judy Wawira Gichoya,Aimilia Gastounioti,Imon Banerjee,Laleh Seyyed-Kalantari,MinJae Woo,Hari Trivedi
発行日 2023-05-08 02:28:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.CY, cs.LG, eess.IV パーマリンク