要約
基礎モデルは、多様な下流タスクにまたがる優れた一般化可能性から、近年大きな注目を集めている。しかし、これらのモデルは、高周波成分や細かな細部を表現するには大きな限界があることが示されている。多くの医用画像処理タスクでは、本質的に複雑な解剖学的構造、サブビジュアル特徴、複雑な境界が関係するため、このような情報を正確に表現することが極めて重要である。その結果、一般的な基礎モデルでは表現に限界があるため、これらのタスクではパフォーマンスが著しく低下したり、失敗したりすることさえある。このような課題に対処するために、我々は、Frepa(Frequency-advanced Representation Autoencoder)と名付けた新しい事前学習戦略を提案する。敵対的学習と組み合わせた高周波数マスキングと低周波数の摂動により、Frepaはエンコーダが画像埋め込みにおいて高周波数成分を効果的に表現し保存することを促す。さらに、革新的なヒストグラム均等化画像マスキング戦略を導入し、ViTだけでなく、Swin Transformerや畳み込みネットワークなどの他のアーキテクチャにマスクオートエンコーダのアプローチを拡張する。我々は、9つの医療モダリティにわたってFrepaを開発し、2D画像と3Dボリュームデータの両方について、32のダウンストリームタスクで検証した。微調整無しで、Frepaは他の自己教師付き事前学習法を凌駕し、場合によってはタスク固有の学習済みモデルをも凌駕する。この改善は、網膜血管のセグメンテーションでDSCが最大+15%、肺結節の検出でIoUが+7%向上するなど、細かいディテールを含むタスクで特に顕著である。さらなる実験により、Frepaが埋め込みにおいて優れた高周波数表現と保存を可能にすることが定量的に明らかになり、より一般的で普遍的な医用画像基盤モデルの開発への可能性が強調された。
要約(オリジナル)
Foundation models have recently attracted significant attention for their impressive generalizability across diverse downstream tasks. However, these models are demonstrated to exhibit great limitations in representing high-frequency components and fine-grained details. In many medical imaging tasks, the precise representation of such information is crucial due to the inherently intricate anatomical structures, sub-visual features, and complex boundaries involved. Consequently, the limited representation of prevalent foundation models can result in significant performance degradation or even failure in these tasks. To address these challenges, we propose a novel pretraining strategy, named Frequency-advanced Representation Autoencoder (Frepa). Through high-frequency masking and low-frequency perturbation combined with adversarial learning, Frepa encourages the encoder to effectively represent and preserve high-frequency components in the image embeddings. Additionally, we introduce an innovative histogram-equalized image masking strategy, extending the Masked Autoencoder approach beyond ViT to other architectures such as Swin Transformer and convolutional networks. We develop Frepa across nine medical modalities and validate it on 32 downstream tasks for both 2D images and 3D volume data. Without fine-tuning, Frepa can outperform other self-supervised pretraining methods and, in some cases, even surpasses task-specific trained models. This improvement is particularly significant for tasks involving fine-grained details, such as achieving up to a +15% increase in DSC for retina vessel segmentation and a +7% increase in IoU for lung nodule detection. Further experiments quantitatively reveal that Frepa enables superior high-frequency representations and preservation in the embeddings, underscoring its potential for developing more generalized and universal medical image foundation models.
arxiv情報
著者 | Yuetan Chu,Yilan Zhang,Zhongyi Han,Changchun Yang,Longxi Zhou,Gongning Luo,Chao Huang,Xin Gao |
発行日 | 2025-03-03 09:31:01+00:00 |
arxivサイト | arxiv_id(pdf) |