Enhancing Representation in Medical Vision-Language Foundation Models via Multi-Scale Information Extraction Techniques

要約

医療視覚言語基盤モデルの開発は、さまざまな臨床応用での有望な可能性があるため、医学およびヘルスケアの分野で大きな注目を集めています。
これまでの研究では一般的に単一の学習スケールでの特徴学習に焦点を当ててきましたが、複数スケールの情報を統合する研究が不足しているため、これらの特徴間の相互強化の可能性が妨げられる可能性があります。
この論文は、マルチスケール情報を効果的に活用して医療基盤モデルのパフォーマンスを向上させる方法を提案することで、このギャップを埋めることを目的としています。
提案された方法は、ローカル、インスタンス、モダリティ、およびグローバルの側面での機能を同時に活用し、モデル内での包括的な表現学習を促進します。
私たちは、さまざまな臨床タスクにわたって 6 つのオープンソース データセットに対して提案された手法の有効性を評価し、医療基礎モデルのパフォーマンスを向上させる能力を実証しました。

要約(オリジナル)

The development of medical vision-language foundation models has attracted significant attention in the field of medicine and healthcare due to their promising prospect in various clinical applications. While previous studies have commonly focused on feature learning at a single learning scale, investigation on integrating multi-scale information is lacking, which may hinder the potential for mutual reinforcement among these features. This paper aims to bridge this gap by proposing a method that effectively exploits multi-scale information to enhance the performance of medical foundation models. The proposed method simultaneously exploits features at the local, instance, modality and global aspects, facilitating comprehensive representation learning within the models. We evaluate the effectiveness of the proposed method on six open-source datasets across different clinical tasks, demonstrating its ability to enhance the performance of medical foundation models.

arxiv情報

著者 Weijian Huang,Cheng Li,Hong-Yu Zhou,Jiarun Liu,Hao Yang,Yong Liang,Guangming Shi,Hairong Zheng,Shanshan Wang
発行日 2024-02-26 10:35:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク