Prompting Medical Large Vision-Language Models to Diagnose Pathologies by Visual Question Answering

要約

Large Vision-Language Model (LVLM) は近年大きな成功を収めており、医療分野にも拡張されています。
医療用視覚質問応答 (VQA) タスクでは満足のいくパフォーマンスを示していますが、医療 LVLM (MLVLM) は幻覚の問題に悩まされており、そのため複雑な病状を診断できません。
さらに、不均衡な訓練データのため、少数派の病理の学習にすぐに失敗します。
幻覚を軽減し、VQA パフォーマンスを向上させる MLVLM の 2 つの促進戦略を提案します。
最初の戦略では、問い合わせられた病状について詳細な説明を提供します。
2 番目の戦略では、安価で弱い学習器を微調整して、特定のメトリクスで高いパフォーマンスを達成し、その判断を MLVLM にテキストで提供します。
MIMIC-CXR-JPG および Chexpert データセットでテストしたところ、私たちの方法は診断 F1 スコアを大幅に改善し、最大増加率は 0.27 でした。
また、プロンプト戦略が一般的な LVLM ドメインに拡張できることも示します。
POPE メトリクスに基づいて、既存の LVLM の誤った陰性予測を効果的に抑制し、再現率を約 0.07 改善します。

要約(オリジナル)

Large Vision-Language Models (LVLMs) have achieved significant success in recent years, and they have been extended to the medical domain. Although demonstrating satisfactory performance on medical Visual Question Answering (VQA) tasks, Medical LVLMs (MLVLMs) suffer from the hallucination problem, which makes them fail to diagnose complex pathologies. Moreover, they readily fail to learn minority pathologies due to imbalanced training data. We propose two prompting strategies for MLVLMs that reduce hallucination and improve VQA performance. In the first strategy, we provide a detailed explanation of the queried pathology. In the second strategy, we fine-tune a cheap, weak learner to achieve high performance on a specific metric, and textually provide its judgment to the MLVLM. Tested on the MIMIC-CXR-JPG and Chexpert datasets, our methods significantly improve the diagnostic F1 score, with the highest increase being 0.27. We also demonstrate that our prompting strategies can be extended to general LVLM domains. Based on POPE metrics, it effectively suppresses the false negative predictions of existing LVLMs and improves Recall by approximately 0.07.

arxiv情報

著者 Danfeng Guo,Demetri Terzopoulos
発行日 2024-07-31 06:34:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク