要約
Vision Transformer (ViT) は、3D 医用画像解析の自己教師あり学習 (SSL) において顕著なパフォーマンスを実証しました。
特徴の事前トレーニング用のマスク オートエンコーダー (MAE) は、さまざまな医療視覚タスクで ViT の可能性をさらに引き出すことができます。
ただし、3D 医療画像の次元がはるかに高く、空間サイズが大きいため、MAE の階層設計の欠如が下流タスクのパフォーマンスを妨げる可能性があります。
この論文では、3D 医療画像用の新しい \textit{Mask in Mask (MiM)} 事前トレーニング フレームワークを提案します。これは、さまざまなスケールにわたる階層的な視覚トークンから識別表現を学習することで MAE を進歩させることを目的としています。
ボリュームからのマスクされた入力に複数レベルの粒度を導入し、細かいレベルと粗いレベルの両方で同時に再構築します。
さらに、クロスレベルの位置合わせメカニズムが隣接するレベルのボリュームに適用され、解剖学的類似性が階層的に強化されます。
さらに、ハイブリッドバックボーンを採用し、事前トレーニング中の階層表現学習を効率的に強化します。
MiM は、利用可能な大規模な 3D ボリューム画像、\textit{つまり、さまざまな体の部分を含むコンピューター断層撮影 (CT) 画像で事前トレーニングされました。
13 の公開データセットに対する広範な実験により、臓器/病変/腫瘍のセグメンテーションおよび疾患分類において、MiM が他の SSL 手法よりも優れていることが実証されました。
さらに、MiM を 10,000 ボリュームを超える大規模な事前トレーニング データセットにスケールアップし、大規模な事前トレーニングによって下流タスクのパフォーマンスがさらに向上する可能性があることを示しています。
この改善により、研究コミュニティは 3D 医療画像の医療基盤モデルに向けた事前トレーニング データセットの規模にもっと注意を払う必要があるとも結論付けられました。
要約(オリジナル)
The Vision Transformer (ViT) has demonstrated remarkable performance in Self-Supervised Learning (SSL) for 3D medical image analysis. Mask AutoEncoder (MAE) for feature pre-training can further unleash the potential of ViT on various medical vision tasks. However, due to large spatial sizes with much higher dimensions of 3D medical images, the lack of hierarchical design for MAE may hinder the performance of downstream tasks. In this paper, we propose a novel \textit{Mask in Mask (MiM)} pre-training framework for 3D medical images, which aims to advance MAE by learning discriminative representation from hierarchical visual tokens across varying scales. We introduce multiple levels of granularity for masked inputs from the volume, which are then reconstructed simultaneously ranging at both fine and coarse levels. Additionally, a cross-level alignment mechanism is applied to adjacent level volumes to enforce anatomical similarity hierarchically. Furthermore, we adopt a hybrid backbone to enhance the hierarchical representation learning efficiently during the pre-training. MiM was pre-trained on a large scale of available 3D volumetric images, \textit{i.e.,} Computed Tomography (CT) images containing various body parts. Extensive experiments on thirteen public datasets demonstrate the superiority of MiM over other SSL methods in organ/lesion/tumor segmentation and disease classification. We further scale up the MiM to large pre-training datasets with more than 10k volumes, showing that large-scale pre-training can further enhance the performance of downstream tasks. The improvement also concluded that the research community should pay more attention to the scale of the pre-training dataset towards the healthcare foundation model for 3D medical images.
arxiv情報
著者 | Jiaxin Zhuang,Linshan Wu,Qiong Wang,Varut Vardhanabhuti,Lin Luo,Hao Chen |
発行日 | 2024-04-24 01:14:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google