要約
病理と解剖学は、医療データにおけるセマンティクスの2つの重要なグループです。
病理学は病気が何であるかを説明し、解剖学は病気がどこで発生するかを説明します。
彼らは、さまざまな視点からの病気を説明し、病気に関する補完的な洞察を提供します。
したがって、これらのセマンティクスとそれらの関係を適切に理解することで、医学的視覚言語モデル(VLM)が強化されます。
ただし、病理学と解剖学のセマンティクスは通常、医療データに絡み合っており、VLMがこれらのセマンティクスとその関係を明示的にモデル化することを妨げます。
この課題に対処するために、私たちは、病理と解剖学のセマンティクスを解き放ち、それらの間の関係をモデル化するために、新しい医療デュアルストリーム言語イメージ前のパイプラインであるMedslipを提案します。
Medslipにデュアルストリームメカニズムを導入して、医療セマンティクスを病理に関連した解剖学に関連するストリームに明示的に解き放ち、各ストリーム内の視覚情報とテキスト情報を調整します。
さらに、病理学と解剖学的なセマンティクスの関係を正規化するためのプロトタイプの対照学習損失と対照的な学習損失を備えた相互作用モデリングモジュールを提案します。
Medslipを胸部X線分析に適用し、4つのベンチマークデータセットを使用して包括的な評価を実施します:NIH CXR14、RSNA肺炎、SIIM-Acr Pneumothorax、およびCovidx CXR-4。
結果は、さまざまなシナリオにわたるMedslipの優れた一般化可能性と転送可能性を示しています。
このコードはhttps://github.com/shef-are/medslipで入手でき、事前に訓練されたモデルはhttps://huggingface.co/pykale/medslipでリリースされます。
要約(オリジナル)
Pathology and anatomy are two essential groups of semantics in medical data. Pathology describes what the diseases are, while anatomy explains where the diseases occur. They describe diseases from different perspectives, providing complementary insights into diseases. Thus, properly understanding these semantics and their relationships can enhance medical vision-language models (VLMs). However, pathology and anatomy semantics are usually entangled in medical data, hindering VLMs from explicitly modeling these semantics and their relationships. To address this challenge, we propose MeDSLIP, a novel Medical Dual-Stream Language-Image Pre-training pipeline, to disentangle pathology and anatomy semantics and model the relationships between them. We introduce a dual-stream mechanism in MeDSLIP to explicitly disentangle medical semantics into pathology-relevant and anatomy-relevant streams and align visual and textual information within each stream. Furthermore, we propose an interaction modeling module with prototypical contrastive learning loss and intra-image contrastive learning loss to regularize the relationships between pathology and anatomy semantics. We apply MeDSLIP to chest X-ray analysis and conduct comprehensive evaluations with four benchmark datasets: NIH CXR14, RSNA Pneumonia, SIIM-ACR Pneumothorax, and COVIDx CXR-4. The results demonstrate MeDSLIP’s superior generalizability and transferability across different scenarios. The code is available at https://github.com/Shef-AIRE/MeDSLIP, and the pre-trained model is released at https://huggingface.co/pykale/MeDSLIP.
arxiv情報
著者 | Wenrui Fan,Mohammod N. I. Suvon,Shuo Zhou,Xianyuan Liu,Samer Alabed,Venet Osmani,Andrew J. Swift,Chen Chen,Haiping Lu |
発行日 | 2025-04-30 12:21:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google