LSMS: Language-guided Scale-aware MedSegmentor for Medical Image Referring Segmentation

要約

従来の医療画像セグメンテーション手法は、医師が診断や治療のために特定の病変を識別するのに不十分であった。そこで、我々は、テキストが教育フォーマットとして有用であることを考慮し、与えられた言語表現に基づいて画像中の特定病変をセグメンテーションする必要がある、医療画像参照セグメンテーション(MIRS)と呼ばれる新しいタスクを導入する。医用画像には様々なスケールのオブジェクトが存在するため、MIRSでは、ロバストな視覚-言語モデリングと包括的なマルチスケールインタラクションが要求される。しかし、既存の医用画像セグメンテーション手法では、これらの要求を満たすことができず、セグメンテーション精度が不十分である。(1)~多様な畳み込みカーネルを活用して、豊富な視覚的知識を獲得し、言語的特徴と密接に相互作用することで、病変局在化能力を向上させるスケール認識視覚-言語アテンションモジュール(Scale-aware Vision-Language Attention module)、(2)~様々なスケールにまたがるマルチモーダル特徴をグローバルにモデル化し、スケール間の相補的情報を捕捉することで、病変境界を正確にアウトライン化するフルスケールデコーダー(Full-Scale Decoder)。MIRSに適したデータセットの欠如に対処するため、我々はRefHL-Seg(Reference Hepatic Lesion Segmentation)と呼ばれる視覚言語による医療データセットを構築した。このデータセットは、231症例の腹部CTスライス2,283枚と、それに対応するテキスト注釈、および画像中の様々な肝病変のセグメンテーションマスクから構成される。我々は、様々なデータセットにおいて、MIRSと従来の医用画像セグメンテーションタスクに対するLSMSの性能を検証した。我々のLSMSは全てのデータセットで一貫して優れた性能を発揮し、計算コストも低かった。コードとデータセットは公開される予定である。

要約(オリジナル)

Conventional medical image segmentation methods have been found inadequate in facilitating physicians with the identification of specific lesions for diagnosis and treatment. Given the utility of text as an instructional format, we introduce a novel task termed Medical Image Referring Segmentation (MIRS), which requires segmenting specified lesions in images based on the given language expressions. Due to the varying object scales in medical images, MIRS demands robust vision-language modeling and comprehensive multi-scale interaction for precise localization and segmentation under linguistic guidance. However, existing medical image segmentation methods fall short in meeting these demands, resulting in insufficient segmentation accuracy. In response, we propose an approach named Language-guided Scale-aware MedSegmentor (LSMS), incorporating two appealing designs: (1)~a Scale-aware Vision-Language Attention module that leverages diverse convolutional kernels to acquire rich visual knowledge and interact closely with linguistic features, thereby enhancing lesion localization capability; (2)~a Full-Scale Decoder that globally models multi-modal features across various scales, capturing complementary information between scales to accurately outline lesion boundaries. Addressing the lack of suitable datasets for MIRS, we constructed a vision-language medical dataset called Reference Hepatic Lesion Segmentation (RefHL-Seg). This dataset comprises 2,283 abdominal CT slices from 231 cases, with corresponding textual annotations and segmentation masks for various liver lesions in images. We validated the performance of LSMS for MIRS and conventional medical image segmentation tasks across various datasets. Our LSMS consistently outperforms on all datasets with lower computational costs. The code and datasets will be released.

arxiv情報

著者 Shuyi Ouyang,Jinyang Zhang,Xiangye Lin,Xilai Wang,Qingqing Chen,Yen-Wei Chen,Lanfen Lin
発行日 2024-09-02 16:08:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, I.4.6 パーマリンク