Learning to Generalize towards Unseen Domains via a Content-Aware Style Invariant Model for Disease Detection from Chest X-rays

要約

分布の不一致によるパフォーマンスの低下は、インテリジェント イメージング、特に胸部 X 線 (CXR) における長年の課題です。
最近の研究では、人間の視覚システムとはまったく対照的に、CNN はコンテンツ (形状など) よりもスタイル (情報にならないテクスチャなど) に偏っていることが実証されています。
放射線科医は CXR から視覚的な手がかりを学習する傾向があるため、複数の領域にわたって良好なパフォーマンスを発揮します。
これを動機として、当社は画像 (SRM-IL) レベルと特徴 (SRM-FL) レベルの両方で新しいオンザフライ スタイルのランダム化モジュールを採用し、堅牢なクロスドメイン パフォーマンスを実現するためにコンテンツをそのまま維持しながらリッチなスタイルの摂動特徴を作成します。
これまでの方法では、補間によって新しいスタイルを構築したり、既存のデータからスタイルを交換したりして、トレーニング中に利用可能なソース ドメインに制限することで、目に見えないドメインをシミュレートしていました。
ただし、SRM-IL は、より多様な拡張を実現するために、トレーニング データではなく、CXR 画像の可能な値の範囲からスタイル統計をサンプリングします。
さらに、より代表的なスタイル特徴をキャプチャするためのスタイル埋め込みとして、事前定義されたチャネルごとの平均および標準偏差と比較して、SRM-FL のピクセルごとの学習可能なパラメータを利用します。
さらに、グローバル セマンティック特徴に対する一貫性の正則化と、同じ CXR のスタイル摂動バージョンの有無による予測分布を利用して、コンテンツ マーカーに対するモデルの感度を微調整して、正確な予測を実現します。
CheXpert および MIMIC-CXR データセットでトレーニングされた私たちの提案手法は、目に見えないドメイン テスト データセット、つまり BRAX、VinDr-CXR、
胸部X線14とNIH胸部X線14をそれぞれ、5分割交差検証での最先端モデルの75.56$\pm$0.80、87.57$\pm$0.46、82.07$\pm$0.19と比較し、胸部X線で統計的に有意な結果が得られた。
病気の分類。

要約(オリジナル)

Performance degradation due to distribution discrepancy is a longstanding challenge in intelligent imaging, particularly for chest X-rays (CXRs). Recent studies have demonstrated that CNNs are biased toward styles (e.g., uninformative textures) rather than content (e.g., shape), in stark contrast to the human vision system. Radiologists tend to learn visual cues from CXRs and thus perform well across multiple domains. Motivated by this, we employ the novel on-the-fly style randomization modules at both image (SRM-IL) and feature (SRM-FL) levels to create rich style perturbed features while keeping the content intact for robust cross-domain performance. Previous methods simulate unseen domains by constructing new styles via interpolation or swapping styles from existing data, limiting them to available source domains during training. However, SRM-IL samples the style statistics from the possible value range of a CXR image instead of the training data to achieve more diversified augmentations. Moreover, we utilize pixel-wise learnable parameters in the SRM-FL compared to pre-defined channel-wise mean and standard deviations as style embeddings for capturing more representative style features. Additionally, we leverage consistency regularizations on global semantic features and predictive distributions from with and without style-perturbed versions of the same CXR to tweak the model’s sensitivity toward content markers for accurate predictions. Our proposed method, trained on CheXpert and MIMIC-CXR datasets, achieves 77.32$\pm$0.35, 88.38$\pm$0.19, 82.63$\pm$0.13 AUCs(%) on the unseen domain test datasets, i.e., BRAX, VinDr-CXR, and NIH chest X-ray14, respectively, compared to 75.56$\pm$0.80, 87.57$\pm$0.46, 82.07$\pm$0.19 from state-of-the-art models on five-fold cross-validation with statistically significant results in thoracic disease classification.

arxiv情報

著者 Mohammad Zunaed,Md. Aynal Haque,Taufiq Hasan
発行日 2024-02-29 18:18:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV パーマリンク