要約
弱い教師付き医療画像のセグメンテーションは、セグメンテーションのパフォーマンスを維持しながらアノテーションのコストを削減することを目的とした難しいタスクです。
この論文では、単純なテキスト キューを活用して高品質の疑似ラベルを生成し、同時にセグメンテーション モデルのトレーニングにおけるクロスモーダル融合を研究する新しいフレームワーク SimTxtSeg を紹介します。
私たちの貢献は 2 つの重要なコンポーネントで構成されています。1 つは医療画像上のテキスト プロンプトから視覚的なプロンプトを生成する効果的な Textual-to-Visual Cue Converter、もう 1 つはテキストと画像の特徴を融合する Text-Vision Hybrid Attendee を備えたテキスト ガイド付きセグメンテーション モデルです。
私たちは、結腸ポリープのセグメンテーションと MRI 脳腫瘍のセグメンテーションという 2 つの医療画像セグメンテーション タスクに関するフレームワークを評価し、一貫した最先端のパフォーマンスを実現します。
要約(オリジナル)
Weakly-supervised medical image segmentation is a challenging task that aims to reduce the annotation cost while keep the segmentation performance. In this paper, we present a novel framework, SimTxtSeg, that leverages simple text cues to generate high-quality pseudo-labels and study the cross-modal fusion in training segmentation models, simultaneously. Our contribution consists of two key components: an effective Textual-to-Visual Cue Converter that produces visual prompts from text prompts on medical images, and a text-guided segmentation model with Text-Vision Hybrid Attention that fuses text and image features. We evaluate our framework on two medical image segmentation tasks: colonic polyp segmentation and MRI brain tumor segmentation, and achieve consistent state-of-the-art performance.
arxiv情報
著者 | Yuxin Xie,Tao Zhou,Yi Zhou,Geng Chen |
発行日 | 2024-06-28 05:56:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google