要約
分布の不一致による性能低下は、インテリジェントイメージング、特に胸部X線(CXR)における長年の課題である。最近の研究では、CNNは内容(形状など)よりもスタイル(情報量の少ないテクスチャなど)に偏ることが実証されており、人間の視覚システムとは対照的である。放射線技師はCXRから視覚的な手がかりを学習する傾向があるため、複数の領域にわたって優れたパフォーマンスを発揮する。このような背景から、我々は画像(SRM-IL)と特徴(SRM-FL)の両レベルで、新しいオンザフライスタイル無作為化モジュールを採用し、内容を維持したままリッチなスタイル摂動特徴を作成することで、領域横断的な性能をロバストにする。これまでの手法では、学習時に利用可能なソースドメインに限定し、既存のデータから補間またはスワップによって新しいスタイルを構築することで、未知のドメインをシミュレートしていた。しかし、SRM-ILは、より多様な補強を実現するために、学習データの代わりにCXR画像の可能な値範囲からスタイル統計量をサンプリングする。さらに、SRM-FLでは、より代表的なスタイルの特徴を捉えるために、スタイル埋め込みとして、あらかじめ定義されたチャンネルごとの平均値や標準偏差と比較して、ピクセルごとに学習可能なパラメータを利用します。さらに、大域的な意味特徴に関する一貫性正則化と、同じCXRのスタイル摂動ありバージョンとスタイル摂動なしバージョンからの予測分布を活用し、正確な予測のためにコンテンツマーカーに対するモデルの感度を調整する。CheXpertデータセットとMIMIC-CXRデータセットで学習した我々の提案手法は、77.32$ppm$0.35、88.38$ppm$0.19、82.63$ppm$0.13のAUC(%)を、未検出領域のテストデータセット、すなわち、BRAX、VinDr-CXRデータセットで達成した、BRAX、VinDr-CXR、NIH胸部X線14の各データセットのAUC(%)は、5重クロスバリデーションにおける最先端モデルの75.56$ppm$0.80、87.57$ppm$0.46、82.07$ppm$0.19と比較し、胸部疾患分類において統計的に有意な結果を示した。
要約(オリジナル)
Performance degradation due to distribution discrepancy is a longstanding challenge in intelligent imaging, particularly for chest X-rays (CXRs). Recent studies have demonstrated that CNNs are biased toward styles (e.g., uninformative textures) rather than content (e.g., shape), in stark contrast to the human vision system. Radiologists tend to learn visual cues from CXRs and thus perform well across multiple domains. Motivated by this, we employ the novel on-the-fly style randomization modules at both image (SRM-IL) and feature (SRM-FL) levels to create rich style perturbed features while keeping the content intact for robust cross-domain performance. Previous methods simulate unseen domains by constructing new styles via interpolation or swapping styles from existing data, limiting them to available source domains during training. However, SRM-IL samples the style statistics from the possible value range of a CXR image instead of the training data to achieve more diversified augmentations. Moreover, we utilize pixel-wise learnable parameters in the SRM-FL compared to pre-defined channel-wise mean and standard deviations as style embeddings for capturing more representative style features. Additionally, we leverage consistency regularizations on global semantic features and predictive distributions from with and without style-perturbed versions of the same CXR to tweak the model’s sensitivity toward content markers for accurate predictions. Our proposed method, trained on CheXpert and MIMIC-CXR datasets, achieves 77.32$\pm$0.35, 88.38$\pm$0.19, 82.63$\pm$0.13 AUCs(%) on the unseen domain test datasets, i.e., BRAX, VinDr-CXR, and NIH chest X-ray14, respectively, compared to 75.56$\pm$0.80, 87.57$\pm$0.46, 82.07$\pm$0.19 from state-of-the-art models on five-fold cross-validation with statistically significant results in thoracic disease classification.
arxiv情報
著者 | Mohammad Zunaed,Md. Aynal Haque,Taufiq Hasan |
発行日 | 2024-01-04 18:35:21+00:00 |
arxivサイト | arxiv_id(pdf) |