Hi-End-MAE: Hierarchical encoder-driven masked autoencoders are stronger vision learners for medical image segmentation

要約

医療画像のセグメンテーションは、ラベルの希少性のために恐ろしい課題のままです。
大規模な非標識医療データセットのマスクイメージモデリング(MIM)を介したトレーニング前の視覚変圧器(VIT)は、さまざまなダウンストリームタスクの計算効率とモデル一般化の両方を提供する有望なソリューションを提供します。
ただし、現在のVITベースのMIM前訓練フレームワークは、出力層の局所集約表現を主に強調し、より正確な医療下流タスクに必要な細粒の意味情報をよりよくキャプチャするさまざまなVIT層にわたって豊富な表現を活用できません。
上記のギャップを埋めるために、ここで、2つの主要なイノベーションを中心とするシンプルで効果的なVITベースのプリトレーニングソリューションである階層エンコーダー駆動型のMAE(Hi-end-Mae)を提示します。(1)エンコーダー駆動型再構築、
エンコーダーに、マスクされたパッチの再構築をガイドするためのより有益な機能を学習するよう奨励します。
(2)階層的なデコード。これは、階層的なデコード構造を実装して、異なる層にわたって豊富な表現をキャプチャします。
10K CTスキャンの大規模なデータセットでハイエンドMAEを事前に訓練し、7つの公共の医療画像セグメンテーションベンチマークでそのパフォーマンスを評価しました。
広範な実験は、Hi-End-Maeがさまざまな下流タスクにわたって優れた転送学習機能を達成し、医療イメージングアプリケーションにおけるVITの可能性を明らかにすることを示しています。
このコードは、https://github.com/fenghetan9/hi-end-maeで入手できます

要約(オリジナル)

Medical image segmentation remains a formidable challenge due to the label scarcity. Pre-training Vision Transformer (ViT) through masked image modeling (MIM) on large-scale unlabeled medical datasets presents a promising solution, providing both computational efficiency and model generalization for various downstream tasks. However, current ViT-based MIM pre-training frameworks predominantly emphasize local aggregation representations in output layers and fail to exploit the rich representations across different ViT layers that better capture fine-grained semantic information needed for more precise medical downstream tasks. To fill the above gap, we hereby present Hierarchical Encoder-driven MAE (Hi-End-MAE), a simple yet effective ViT-based pre-training solution, which centers on two key innovations: (1) Encoder-driven reconstruction, which encourages the encoder to learn more informative features to guide the reconstruction of masked patches; and (2) Hierarchical dense decoding, which implements a hierarchical decoding structure to capture rich representations across different layers. We pre-train Hi-End-MAE on a large-scale dataset of 10K CT scans and evaluated its performance across seven public medical image segmentation benchmarks. Extensive experiments demonstrate that Hi-End-MAE achieves superior transfer learning capabilities across various downstream tasks, revealing the potential of ViT in medical imaging applications. The code is available at: https://github.com/FengheTan9/Hi-End-MAE

arxiv情報

著者 Fenghe Tang,Qingsong Yao,Wenxin Ma,Chenxu Wu,Zihang Jiang,S. Kevin Zhou
発行日 2025-02-12 12:14:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク