SLMT-Net: A Self-supervised Learning based Multi-scale Transformer Network for Cross-Modality MR Image Synthesis

要約

クロスモダリティ磁気共鳴(MR)画像合成は、既存のモダリティから欠落したモダリティを生成することを目的としている。現在、ディープニューラルネットワークに基づくいくつかの手法が、ソースモダリティとターゲットモダリティの両方を用いて、教師あり学習方式で開発されている。しかし,完全にペアリングされたマルチモダルの学習データを大量に得ることは依然として困難であり,既存の手法の有効性を阻害している.本論文では、クロスモダリティMR画像合成のための新しい自己教師付き学習型マルチスケールトランスフォーマーネットワーク(SLMT-Net)を提案し、前学習段階と微調整段階の2段階からなる。前段階では、画像再構成とエッジ生成を同時に行い、文脈情報とエッジ情報を保存するEdge-preserving Masked AutoEncoder (Edge-MAE)を提案する。また,入力パッチの再構成難易度に応じたパッチワイズロスを提案し,再構成画像とグランドトゥルースの差分を計測することで,入力パッチを区別して扱う.この場合、我々のEdge-MAEは、ペアリングされていない大量のマルチモーダルデータを十分に活用し、効果的な特徴表現を学習することができる。また、微調整の段階では、マルチスケールトランスフォーマーU-Net(MT-UNet)を用いてターゲットモダリティ画像を合成する。このMT-UNetでは、デュアルスケール選択的融合(DSF)モジュールを提案し、事前学習済みのEdge-MAEのエンコーダーから抽出したマルチスケール特徴を完全に統合する。さらに、合成画像とグランドトゥルース画像の高レベル特徴量の差を測定するための特徴整合モジュールとして、事前学習済みエンコーダを使用する。実験結果は、提案するSLMT-Netの有効性を示しており、我々のモデルは、学習セットが部分的にペアリングされていない場合でも、高品質な画像を確実に合成することができる。我々のコードは、https://github.com/lyhkevin/SLMT-Net で公開される予定です。

要約(オリジナル)

Cross-modality magnetic resonance (MR) image synthesis aims to produce missing modalities from existing ones. Currently, several methods based on deep neural networks have been developed using both source- and target-modalities in a supervised learning manner. However, it remains challenging to obtain a large amount of completely paired multi-modal training data, which inhibits the effectiveness of existing methods. In this paper, we propose a novel Self-supervised Learning-based Multi-scale Transformer Network (SLMT-Net) for cross-modality MR image synthesis, consisting of two stages, \ie, a pre-training stage and a fine-tuning stage. During the pre-training stage, we propose an Edge-preserving Masked AutoEncoder (Edge-MAE), which preserves the contextual and edge information by simultaneously conducting the image reconstruction and the edge generation. Besides, a patch-wise loss is proposed to treat the input patches differently regarding their reconstruction difficulty, by measuring the difference between the reconstructed image and the ground-truth. In this case, our Edge-MAE can fully leverage a large amount of unpaired multi-modal data to learn effective feature representations. During the fine-tuning stage, we present a Multi-scale Transformer U-Net (MT-UNet) to synthesize the target-modality images, in which a Dual-scale Selective Fusion (DSF) module is proposed to fully integrate multi-scale features extracted from the encoder of the pre-trained Edge-MAE. Moreover, we use the pre-trained encoder as a feature consistency module to measure the difference between high-level features of the synthesized image and the ground truth one. Experimental results show the effectiveness of the proposed SLMT-Net, and our model can reliably synthesize high-quality images when the training set is partially unpaired. Our code will be publicly available at https://github.com/lyhkevin/SLMT-Net.

arxiv情報

著者 Yonghao Li,Tao Zhou,Kelei He,Yi Zhou,Dinggang Shen
発行日 2022-12-02 11:40:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV パーマリンク