SimTxtSeg: Weakly-Supervised Medical Image Segmentation with Simple Text Cues

要約

弱い教師付き医療画像のセグメンテーションは、セグメンテーションのパフォーマンスを維持しながらアノテーションのコストを削減することを目的とした難しいタスクです。
この論文では、単純なテキスト キューを活用して高品質の疑似ラベルを生成し、同時にセグメンテーション モデルのトレーニングにおけるクロスモーダル融合を研究する新しいフレームワーク SimTxtSeg を紹介します。
私たちの貢献は 2 つの重要なコンポーネントで構成されています。1 つは医療画像上のテキスト プロンプトから視覚的なプロンプトを生成する効果的な Textual-to-Visual Cue Converter、もう 1 つはテキストと画像の特徴を融合する Text-Vision Hybrid Attendee を備えたテキスト ガイド付きセグメンテーション モデルです。
私たちは、結腸ポリープのセグメンテーションと MRI 脳腫瘍のセグメンテーションという 2 つの医療画像セグメンテーション タスクに関するフレームワークを評価し、一貫した最先端のパフォーマンスを実現します。

要約(オリジナル)

Weakly-supervised medical image segmentation is a challenging task that aims to reduce the annotation cost while keep the segmentation performance. In this paper, we present a novel framework, SimTxtSeg, that leverages simple text cues to generate high-quality pseudo-labels and study the cross-modal fusion in training segmentation models, simultaneously. Our contribution consists of two key components: an effective Textual-to-Visual Cue Converter that produces visual prompts from text prompts on medical images, and a text-guided segmentation model with Text-Vision Hybrid Attention that fuses text and image features. We evaluate our framework on two medical image segmentation tasks: colonic polyp segmentation and MRI brain tumor segmentation, and achieve consistent state-of-the-art performance.

arxiv情報

著者 Yuxin Xie,Tao Zhou,Yi Zhou,Geng Chen
発行日 2024-06-28 05:56:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク