Self-supervised learning improves robustness of deep learning lung tumor segmentation to CT imaging differences

要約

自己教師あり学習 (SSL) は、ラベルのないデータから有用な特徴表現を抽出し、限定されたラベル付きサンプルを使用して下流のタスクを微調整できるようにするアプローチです。
自己事前トレーニングは、ネットワークの事前トレーニングと微調整の両方に厳選されたタスク データセットを使用する SSL アプローチです。
大規模で多様性があり、未管理の公開医療画像セットが利用できるため、SSL を「野生」で適用し、画像の変動に対して堅牢な特徴を抽出できる可能性があります。
ただし、医療画像解析については、野生型事前トレーニングと自己事前トレーニングの利点については研究されていません。
この論文では、非小細胞肺がん (NSCLC) セグメンテーションにおけるコンピューター断層撮影 (CT) イメージングの違いに対して、野生型トランスフォーマーと自己事前トレーニング済みトランスフォーマー (ビジョン トランスフォーマー [ViT] および階層シフト ウィンドウ [Swin]) モデルの堅牢性を比較します。
野生の事前学習済み Swin モデルは、さまざまな画像取得において自己事前学習済みの Swin モデルよりも優れたパフォーマンスを示しました。
ViT では、野生モデルと自己事前学習モデルの両方で同様の精度が得られました。
ネットワークにローカル構造の学習を強制するマスクされた画像予測口実タスクは、グローバルな画像情報をモデル化する対照的なタスクと比較して、より高い精度をもたらしました。
ワイルド事前トレーニング モデルでは、下位レベルのレイヤーでの特徴の再利用が向上し、微調整後の出力レイヤーに近い特徴が区別されました。
したがって、我々は次のように結論付けます。野生の事前学習されたネットワークは、自己事前学習された方法よりも、肺腫瘍セグメンテーションの CT 画像の差の分析に対してより堅牢でした。
Swin アーキテクチャは、ViT よりもこのような事前トレーニングの恩恵を受けました。

要約(オリジナル)

Self-supervised learning (SSL) is an approach to extract useful feature representations from unlabeled data, and enable fine-tuning on downstream tasks with limited labeled examples. Self-pretraining is a SSL approach that uses the curated task dataset for both pretraining the networks and fine-tuning them. Availability of large, diverse, and uncurated public medical image sets provides the opportunity to apply SSL in the ‘wild’ and potentially extract features robust to imaging variations. However, the benefit of wild- vs self-pretraining has not been studied for medical image analysis. In this paper, we compare robustness of wild versus self-pretrained transformer (vision transformer [ViT] and hierarchical shifted window [Swin]) models to computed tomography (CT) imaging differences for non-small cell lung cancer (NSCLC) segmentation. Wild-pretrained Swin models outperformed self-pretrained Swin for the various imaging acquisitions. ViT resulted in similar accuracy for both wild- and self-pretrained models. Masked image prediction pretext task that forces networks to learn the local structure resulted in higher accuracy compared to contrastive task that models global image information. Wild-pretrained models resulted in higher feature reuse at the lower level layers and feature differentiation close to output layer after fine-tuning. Hence, we conclude: Wild-pretrained networks were more robust to analyzed CT imaging differences for lung tumor segmentation than self-pretrained methods. Swin architecture benefited from such pretraining more than ViT.

arxiv情報

著者 Jue Jiang,Aneesh Rangnekar,Harini Veeraraghavan
発行日 2024-05-14 14:35:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク