Panoptic Segmentation of Mammograms with Text-To-Image Diffusion Model

要約

マンモグラフィーは乳がんの監視と早期診断に不可欠です。
しかし、マンモグラフィー画像の分析は、毎日何百枚ものマンモグラフィーを検査することが多い放射線科医にとって困難な作業であり、過剰診断や過剰治療につながります。
このプロセスを支援するためにコンピュータ支援診断 (CAD) システムが開発されてきましたが、その機能、特に病変のセグメンテーションにおける機能は依然として限定的でした。
現代のディープラーニングの進歩により、パフォーマンスが向上する可能性があります。
最近、視覚言語拡散モデルが登場し、画像生成とさまざまな下流タスクへの転送において優れたパフォーマンスを実証しました。
私たちは、意味論的予測とインスタンスレベルの予測の両方を含む、パノプティック環境での乳房病変のセグメンテーションにその機能を活用することを目指しています。
具体的には、安定拡散モデルの事前トレーニング済みの特徴を最先端のパノプティック セグメンテーション アーキテクチャへの入力として活用し、個々の乳房病変を正確に描写することを提案します。
自然画像ドメインと医療画像ドメインの間のギャップを埋めるために、マンモグラフィー固有の MAM-E 拡散モデルと BiomedCLIP 画像およびテキスト エンコーダーをこのフレームワークに組み込みました。
私たちは、最近公開された 2 つのマンモグラフィ データセット、CDD-CESM と VinDr-Mammo に対するアプローチを評価しました。
インスタンスのセグメンテーション タスクでは、40.25 AP0.1 と 46.82 AP0.05、25.44 PQ0.1 と 26.92 PQ0.05 が記録されました。
セマンティック セグメンテーション タスクでは、それぞれ 38.86 と 40.92 の Dice スコアを達成しました。

要約(オリジナル)

Mammography is crucial for breast cancer surveillance and early diagnosis. However, analyzing mammography images is a demanding task for radiologists, who often review hundreds of mammograms daily, leading to overdiagnosis and overtreatment. Computer-Aided Diagnosis (CAD) systems have been developed to assist in this process, but their capabilities, particularly in lesion segmentation, remained limited. With the contemporary advances in deep learning their performance may be improved. Recently, vision-language diffusion models emerged, demonstrating outstanding performance in image generation and transferability to various downstream tasks. We aim to harness their capabilities for breast lesion segmentation in a panoptic setting, which encompasses both semantic and instance-level predictions. Specifically, we propose leveraging pretrained features from a Stable Diffusion model as inputs to a state-of-the-art panoptic segmentation architecture, resulting in accurate delineation of individual breast lesions. To bridge the gap between natural and medical imaging domains, we incorporated a mammography-specific MAM-E diffusion model and BiomedCLIP image and text encoders into this framework. We evaluated our approach on two recently published mammography datasets, CDD-CESM and VinDr-Mammo. For the instance segmentation task, we noted 40.25 AP0.1 and 46.82 AP0.05, as well as 25.44 PQ0.1 and 26.92 PQ0.05. For the semantic segmentation task, we achieved Dice scores of 38.86 and 40.92, respectively.

arxiv情報

著者 Kun Zhao,Jakub Prokop,Javier Montalt Tordera,Sadegh Mohammadi
発行日 2024-07-19 14:04:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク