ATM-Net: Anatomy-Aware Text-Guided Multi-Modal Fusion for Fine-Grained Lumbar Spine Segmentation

要約

脊椎疾患の診断には、正確な腰椎のセグメンテーションが不可欠である。既存のセグメンテーション手法では、正確な診断に必要な詳細な情報が得られない粗いセグメンテーション戦略が一般的である。さらに、視覚のみのモデルに依存しているため、解剖学的セマンティクスの把握が妨げられ、誤分類やセグメンテーションの詳細が不十分である。これらの限界に対処するため、我々は、解剖学的意味を認識し、テキストガイド付きの、腰椎部分構造(椎骨(VB)、椎間板(ID)、脊柱管(SC))のきめ細かいセグメンテーションのためのマルチモーダル融合メカニズムを採用した革新的なフレームワークであるATM-Netを紹介する。ATM-Netは、解剖学認識テキストプロンプトジェネレータ(ATPG)を採用し、画像注釈を異なるビューにおける解剖学認識プロンプトに適応的に変換する。これらの洞察はさらに、HASF(Holistic Anatomy-aware Semantic Fusion)モジュールを介して画像の特徴と統合され、包括的な解剖学的コンテキストが構築される。チャンネル単位のコントラスト解剖学的認識強化(CCAE)モジュールは、クラス単位のチャンネルレベルのマルチモーダルコントラスト学習により、クラス識別をさらに強化し、セグメンテーションを洗練させる。MRSpineSegとSPIDERデータセットでの広範な実験により、ATM-Netはクラス識別とセグメンテーションの詳細に関して一貫した改善により、最先端の手法を大幅に上回ることが実証された。例えば、ATM-NetはSPIDERにおいて79.39%のDiceと9.91ピクセルのHD95を達成し、それぞれ8.31%と4.14ピクセルの競合SpineParseNetを上回った。

要約(オリジナル)

Accurate lumbar spine segmentation is crucial for diagnosing spinal disorders. Existing methods typically use coarse-grained segmentation strategies that lack the fine detail needed for precise diagnosis. Additionally, their reliance on visual-only models hinders the capture of anatomical semantics, leading to misclassified categories and poor segmentation details. To address these limitations, we present ATM-Net, an innovative framework that employs an anatomy-aware, text-guided, multi-modal fusion mechanism for fine-grained segmentation of lumbar substructures, i.e., vertebrae (VBs), intervertebral discs (IDs), and spinal canal (SC). ATM-Net adopts the Anatomy-aware Text Prompt Generator (ATPG) to adaptively convert image annotations into anatomy-aware prompts in different views. These insights are further integrated with image features via the Holistic Anatomy-aware Semantic Fusion (HASF) module, building a comprehensive anatomical context. The Channel-wise Contrastive Anatomy-Aware Enhancement (CCAE) module further enhances class discrimination and refines segmentation through class-wise channel-level multi-modal contrastive learning. Extensive experiments on the MRSpineSeg and SPIDER datasets demonstrate that ATM-Net significantly outperforms state-of-the-art methods, with consistent improvements regarding class discrimination and segmentation details. For example, ATM-Net achieves Dice of 79.39% and HD95 of 9.91 pixels on SPIDER, outperforming the competitive SpineParseNet by 8.31% and 4.14 pixels, respectively.

arxiv情報

著者 Sheng Lian,Dengfeng Pan,Jianlong Cai,Guang-Yong Chen,Zhun Zhong,Zhiming Luo,Shen Zhao,Shuo Li
発行日 2025-04-04 14:36:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク