LSMS: Language-guided Scale-aware MedSegmentor for Medical Image Referring Segmentation

要約

従来の医用画像セグメンテーション方法は、医師が診断や治療のために特定の病変を特定するのを容易にするのに不十分であることがわかっています。
教育形式としてのテキストの有用性を考慮して、医用画像参照セグメンテーション (MIRS) と呼ばれる新しいタスクを導入します。このタスクでは、指定された言語表現に基づいて画像内の指定された病変をセグメント化する必要があります。
医療画像ではオブジェクトのスケールが異なるため、MIRS では、言語ガイダンスの下で正確な位置特定とセグメンテーションを行うための、堅牢な視覚言語モデリングと包括的なマルチスケール インタラクションが必要です。
しかし、既存の医用画像セグメンテーション手法ではこれらの要求を満たすことができず、セグメンテーションの精度が不十分になります。
これに応えて、私たちは言語ガイド付きスケール認識医療セグメンター (LSMS) というアプローチを提案します。これには 2 つの魅力的な設計が組み込まれています: (1) ~ 多様な畳み込みカーネルを活用して豊富な視覚的知識を獲得し、緊密に対話するスケール認識視覚言語注意モジュール
言語的特徴を備えているため、病変位置特定能力が強化されます。
(2)~さまざまなスケールにわたるマルチモーダルな特徴をグローバルにモデル化するフルスケール デコーダで、スケール間の補完的な情報をキャプチャして病変の境界を正確に概説します。
MIRS に適したデータセットの不足に対処して、参照肝病変セグメンテーション (RefHL-Seg) と呼ばれる視覚言語医療データセットを構築しました。
このデータセットは、231 症例の 2,283 枚の腹部 CT スライスで構成されており、画像内のさまざまな肝臓病変に対応するテキスト注釈とセグメンテーション マスクが付いています。
MIRS 用の LSMS と従来の医療画像セグメンテーション タスクのパフォーマンスを、さまざまなデータセットにわたって検証しました。
当社の LSMS は、計算コストが低く、すべてのデータセットで一貫して優れたパフォーマンスを発揮します。
コードとデータセットはリリースされます。

要約(オリジナル)

Conventional medical image segmentation methods have been found inadequate in facilitating physicians with the identification of specific lesions for diagnosis and treatment. Given the utility of text as an instructional format, we introduce a novel task termed Medical Image Referring Segmentation (MIRS), which requires segmenting specified lesions in images based on the given language expressions. Due to the varying object scales in medical images, MIRS demands robust vision-language modeling and comprehensive multi-scale interaction for precise localization and segmentation under linguistic guidance. However, existing medical image segmentation methods fall short in meeting these demands, resulting in insufficient segmentation accuracy. In response, we propose an approach named Language-guided Scale-aware MedSegmentor (LSMS), incorporating two appealing designs: (1)~a Scale-aware Vision-Language Attention module that leverages diverse convolutional kernels to acquire rich visual knowledge and interact closely with linguistic features, thereby enhancing lesion localization capability; (2)~a Full-Scale Decoder that globally models multi-modal features across various scales, capturing complementary information between scales to accurately outline lesion boundaries. Addressing the lack of suitable datasets for MIRS, we constructed a vision-language medical dataset called Reference Hepatic Lesion Segmentation (RefHL-Seg). This dataset comprises 2,283 abdominal CT slices from 231 cases, with corresponding textual annotations and segmentation masks for various liver lesions in images. We validated the performance of LSMS for MIRS and conventional medical image segmentation tasks across various datasets. Our LSMS consistently outperforms on all datasets with lower computational costs. The code and datasets will be released.

arxiv情報

著者 Shuyi Ouyang,Jinyang Zhang,Xiangye Lin,Xilai Wang,Qingqing Chen,Yen-Wei Chen,Lanfen Lin
発行日 2024-08-30 15:22:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.6 パーマリンク