Enhancing Representation in Radiography-Reports Foundation Model: A Granular Alignment Algorithm Using Masked Contrastive Learning

要約

近年、マルチモーダル視覚言語基盤モデルが医療分野で大きな注目を集めている。これらのモデルは大きな可能性を提供する一方で、コンピュータ支援診断におけるきめ細かな知識理解の要求や、実臨床アプリケーションにおける非常に限られた、あるいはタスク固有のラベル付きデータの利用能力など、依然として重要な課題に直面している。本研究では、これらの課題に取り組むマスク対比胸部X線基礎モデルMaCoを紹介する。MaCoは、様々な医用画像処理タスクに対して、きめ細かな画像理解とゼロショット学習を同時に達成するためのマスク対比学習を探求する。マスクされた胸部X線画像パッチとその対応するレポート間の相関を調整する相関重み付けメカニズムを設計し、モデルの表現学習能力を向上させる。MaCoの性能を評価するために、6つの有名なオープンソースのX線データセットを用いて広範な実験を行った。実験結果は、分類、セグメンテーション、検出、フレーズグラウンディングなどのタスクにおいて、MaCoが10種類の最先端アプローチよりも優れていることを実証している。これらの結果は、幅広い医用画像解析タスクを前進させるMaCoの大きな可能性を強調している。

要約(オリジナル)

Recently, multi-modal vision-language foundation models have gained significant attention in the medical field. While these models offer great opportunities, they still face crucial challenges, such as the requirement for fine-grained knowledge understanding in computer-aided diagnosis and the capability of utilizing very limited or even no task-specific labeled data in real-world clinical applications. In this study, we present MaCo, a masked contrastive chest X-ray foundation model that tackles these challenges. MaCo explores masked contrastive learning to simultaneously achieve fine-grained image understanding and zero-shot learning for a variety of medical imaging tasks. It designs a correlation weighting mechanism to adjust the correlation between masked chest X-ray image patches and their corresponding reports, thereby enhancing the model’s representation learning capabilities. To evaluate the performance of MaCo, we conducted extensive experiments using 6 well-known open-source X-ray datasets. The experimental results demonstrate the superiority of MaCo over 10 state-of-the-art approaches across tasks such as classification, segmentation, detection, and phrase grounding. These findings highlight the significant potential of MaCo in advancing a wide range of medical image analysis tasks.

arxiv情報

著者 Weijian Huang,Cheng Li,Hong-Yu Zhou,Hao Yang,Jiarun Liu,Yong Liang,Hairong Zheng,Shaoting Zhang,Shanshan Wang
発行日 2024-09-03 01:40:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク