Efficient Parameter Adaptation for Multi-Modal Medical Image Segmentation and Prognosis

要約

がんの検出と予後は、医療イメージング、特にCTとPETスキャンに大きく依存しています。
ディープニューラルネットワーク(DNNS)は、これらのモダリティから情報を融合することにより、腫瘍のセグメンテーションに有望を示しています。
ただし、重要なボトルネックが存在します。トレーニングと推論のためにCT-PETデータへの依存度は、PETスキャンの利用可能性が限られているために課題を提起します。
したがって、広く利用可能なCTスキャンでトレーニングできる柔軟で効率的なフレームワークが明確に必要であり、PETスキャンが利用可能になったときにまだ適応できます。
この作業では、PETスキャンが利用可能になったときに使用するために効率的に適応できるように、CTスキャンでのみ訓練されたトランスベースのセグメンテーションモデルの軽量アップグレードのためのパラメーター効率の高いマルチモーダル適応(PEMMA)フレームワークを提案します。
このフレームワークは、同じ効率的なクロスモーダル微調整アプローチを維持する予後タスクを実行するためにさらに拡張されています。
提案されたアプローチは、2つのよく知られている分離バックボーン、つまりUNETRとSWIN UNETRでテストされています。
私たちのアプローチは、2つの主な利点を提供します。
第一に、トランスアーキテクチャの固有のモジュール性を活用し、低ランク適応(LORA)と、パラメーター効率の高い適応を実現するために注意重みの低ランク適応(DORA)を分解する(DORA)を実行します。
第二に、クロスモーダルエンタングルメントを最小限に抑えることにより、Pemmaは、他の壊滅的な忘却を引き起こすことなく、1つのモダリティのみを使用して更新を許可します。
私たちの方法は、早期の融合に匹敵するパフォーマンスを達成しますが、トレーニング可能なパラメーターの8%のみで、単一のモダリティでトレーニングされた場合、PETスキャンで大幅な +28%のDICEスコアの改善を示します。
さらに、予後において、私たちの方法は、CTプレーンモデルをPETスキャンを含めるために適応するときに一致指数を +10%改善し、PETデータとEHRデータの両方に適応するときに +23%を改善します。

要約(オリジナル)

Cancer detection and prognosis relies heavily on medical imaging, particularly CT and PET scans. Deep Neural Networks (DNNs) have shown promise in tumor segmentation by fusing information from these modalities. However, a critical bottleneck exists: the dependency on CT-PET data concurrently for training and inference, posing a challenge due to the limited availability of PET scans. Hence, there is a clear need for a flexible and efficient framework that can be trained with the widely available CT scans and can be still adapted for PET scans when they become available. In this work, we propose a parameter-efficient multi-modal adaptation (PEMMA) framework for lightweight upgrading of a transformer-based segmentation model trained only on CT scans such that it can be efficiently adapted for use with PET scans when they become available. This framework is further extended to perform prognosis task maintaining the same efficient cross-modal fine-tuning approach. The proposed approach is tested with two well-known segementation backbones, namely UNETR and Swin UNETR. Our approach offers two main advantages. Firstly, we leverage the inherent modularity of the transformer architecture and perform low-rank adaptation (LoRA) as well as decomposed low-rank adaptation (DoRA) of the attention weights to achieve parameter-efficient adaptation. Secondly, by minimizing cross-modal entanglement, PEMMA allows updates using only one modality without causing catastrophic forgetting in the other. Our method achieves comparable performance to early fusion, but with only 8% of the trainable parameters, and demonstrates a significant +28% Dice score improvement on PET scans when trained with a single modality. Furthermore, in prognosis, our method improves the concordance index by +10% when adapting a CT-pretrained model to include PET scans, and by +23% when adapting for both PET and EHR data.

arxiv情報

著者 Numan Saeed,Shahad Hardan,Muhammad Ridzuan,Nada Saadi,Karthik Nandakumar,Mohammad Yaqub
発行日 2025-04-18 11:52:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク