Training Medical Large Vision-Language Models with Abnormal-Aware Feedback

要約

既存の医療用大型視覚言語モデル(Medical Large Vision-Language Models: Med-LVLM)は、広範な医療知識を内包しており、医療画像を理解し、これらの画像に基づく人間のクエリに応答する上で優れた能力を発揮する。しかし、異常の検出と解釈のために重要な、医療画像における視覚的位置特定には課題が残っている。このような問題に対処するために、我々は医学的異常の解明を目的とした新しいUMed-LVLMを提案する。具体的には、Medical Abnormalities Unveiling (MAU)データセットを収集し、UMed-LVLM学習のための2段階学習法を提案する。MAUデータセットを収集するために、GPT-4Vを利用したプロンプト法を提案し、医用画像中の特定された異常領域に基づいて診断を生成する。さらに、2段階学習法には、異常領域を考慮した命令チューニングと、異常領域を考慮した報酬(異常位置報酬と視覚関連報酬)が含まれる。実験結果は、我々のUMed-LVLMが既存のMed-LVLMを凌駕し、医療異常の識別と理解に優れていることを示している。さらに、Med-LVLMの異常検出能力を向上させることで、医用画像の理解と汎化能力が大幅に向上することを示す。

要約(オリジナル)

Existing Medical Large Vision-Language Models (Med-LVLMs), which encapsulate extensive medical knowledge, demonstrate excellent capabilities in understanding medical images and responding to human queries based on these images. However, there remain challenges in visual localization in medical images, which is crucial for abnormality detection and interpretation. To address these issues, we propose a novel UMed-LVLM designed with Unveiling Medical abnormalities. Specifically, we collect a Medical Abnormalities Unveiling (MAU) dataset and propose a two-stage training method for UMed-LVLM training. To collect MAU dataset, we propose a prompt method utilizing the GPT-4V to generate diagnoses based on identified abnormal areas in medical images. Moreover, the two-stage training method includes Abnormal-Aware Instruction Tuning and Abnormal-Aware Rewarding, comprising Abnormal Localization Rewarding and Vision Relevance Rewarding. Experimental results demonstrate that our UMed-LVLM surpasses existing Med-LVLMs in identifying and understanding medical abnormality. In addition, this work shows that enhancing the abnormality detection capabilities of Med-LVLMs significantly improves their understanding of medical images and generalization capability.

arxiv情報

著者 Yucheng Zhou,Lingran Song,Jianbing Shen
発行日 2025-01-02 17:37:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク