要約
自己教師あり学習(SSL)は、ラベル付きデータの不足に悩む様々な下流アプリケーションのために、膨大で未開発の臨床データセットの可能性を解き放つエキサイティングな機会を提供する。SSLは自然言語処理やコンピュータビジョンなどの分野に革命をもたらしたが、3D医用画像コンピューティングへの導入は3つの重要な落とし穴によって制限されてきた:すなわち、少ない事前学習データセットサイズ、3D医用画像解析に不適切なアーキテクチャ、不十分な評価方法である。本論文では、i) 39kの3D脳MRIボリュームからなる大規模データセットを活用し、ii) 最先端のnnU-Netフレームワーク内でResidual Encoder U-Netアーキテクチャを使用することで、これらの問題に対処する。 iii) 5つの開発データセットと8つのテスト脳MRIセグメンテーションデータセットを組み込んだ堅牢な開発フレームワークにより、性能駆動型の設計決定が可能となり、3D CNNのためのMasked Auto Encoders (MAE)の単純な概念を最適化することができた。結果として得られたモデルは、これまでのSSL手法を凌駕するだけでなく、強力なnnU-Netベースラインを平均約3ダイスポイント上回り、新たな最先端を打ち立てた。我々のコードとモデルはこちらで公開されている。
要約(オリジナル)
Self-Supervised Learning (SSL) presents an exciting opportunity to unlock the potential of vast, untapped clinical datasets, for various downstream applications that suffer from the scarcity of labeled data. While SSL has revolutionized fields like natural language processing and computer vision, its adoption in 3D medical image computing has been limited by three key pitfalls: Small pre-training dataset sizes, architectures inadequate for 3D medical image analysis, and insufficient evaluation practices. In this paper, we address these issues by i) leveraging a large-scale dataset of 39k 3D brain MRI volumes and ii) using a Residual Encoder U-Net architecture within the state-of-the-art nnU-Net framework. iii) A robust development framework, incorporating 5 development and 8 testing brain MRI segmentation datasets, allowed performance-driven design decisions to optimize the simple concept of Masked Auto Encoders (MAEs) for 3D CNNs. The resulting model not only surpasses previous SSL methods but also outperforms the strong nnU-Net baseline by an average of approximately 3 Dice points setting a new state-of-the-art. Our code and models are made available here.
arxiv情報
著者 | Tassilo Wald,Constantin Ulrich,Stanislav Lukyanenko,Andrei Goncharov,Alberto Paderno,Maximilian Miller,Leander Maerkisch,Paul F. Jäger,Klaus Maier-Hein |
発行日 | 2025-04-04 15:51:37+00:00 |
arxivサイト | arxiv_id(pdf) |