要約
既存の医療大規模視覚言語モデル(MED-LVLMS)は、広範な医療知識をカプセル化し、医療画像を理解する上で優れた能力を示しています。
ただし、医療画像の視覚的局在には課題が残っています。これは、異常の検出と解釈に不可欠です。
これらの問題に対処するために、医学的異常を明らかにするために設計された新しいUMED-LVLMを提案します。
具体的には、医療異常除去(MAU)データセットを収集し、UMED-LVLMトレーニングのための2段階のトレーニング方法を提案します。
MAUデータセットを収集するために、GPT-4Vを利用して、医療画像の特定の異常な領域に基づいて診断を生成する迅速な方法を提案します。
さらに、2段階のトレーニング方法には、関連性の報酬、異常なローカリゼーション報酬、ビジョン関連報酬を含む、異常に認識された指示の調整と異常に認識される報酬が含まれます。
実験結果は、UMED-LVLMが既存のMED-LVLMを大幅に上回り、医療異常を特定して理解し、ベースラインよりも58%の改善を達成することを示しています。
さらに、この研究は、MED-LVLMSの異常検出能力を強化することで、医療画像と一般化能力の理解が大幅に向上することを示しています。
要約(オリジナル)
Existing Medical Large Vision-Language Models (Med-LVLMs), encapsulating extensive medical knowledge, demonstrate excellent capabilities in understanding medical images. However, there remain challenges in visual localization in medical images, which is crucial for abnormality detection and interpretation. To address these issues, we propose a novel UMed-LVLM designed to unveil medical abnormalities. Specifically, we collect a Medical Abnormalities Unveiling (MAU) dataset and propose a two-stage training method for UMed-LVLM training. To collect MAU dataset, we propose a prompt method utilizing the GPT-4V to generate diagnoses based on identified abnormal areas in medical images. Moreover, the two-stage training method includes Abnormal-Aware Instruction Tuning and Abnormal-Aware Rewarding, comprising Relevance Reward, Abnormal Localization Reward and Vision Relevance Reward. Experimental results demonstrate that our UMed-LVLM significantly outperforms existing Med-LVLMs in identifying and understanding medical abnormalities, achieving a 58% improvement over the baseline. In addition, this work shows that enhancing the abnormality detection capabilities of Med-LVLMs significantly improves their understanding of medical images and generalization capability.
arxiv情報
著者 | Yucheng Zhou,Lingran Song,Jianbing Shen |
発行日 | 2025-06-02 09:56:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google