R-LLaVA: Improving Med-VQA Understanding through Visual Region of Interest

要約

人工知能は医学的視覚的質問応答(MED-VQA)に大きな進歩を遂げましたが、一般的な研究はしばしば画像を全体的に解釈し、重要な情報を含む可能性のある視覚的な関心領域を見落とし、最小限に組み込むことができる医師の事前知識と潜在的に一致する可能性があります
注釈(境界ボックスなど)。
このギャップに対処するために、このペーパーでは、単純な医療アノテーションをクリップを介して画像空間に直接統合することにより、生物医学的VQAの理解を高めるように設計されたR-llavaを紹介します。
これらの注釈付きの視覚領域は、トレーニング中にLLAVAモデルに供給され、生物医学的クエリのモデルの理解を豊かにすることを目指しています。
4つの標準MED-VQAデータセットの実験的評価は、既存の最先端(SOTA)メソッドに対するR-LLAVAの優位性を示しています。
さらに、視覚的理解におけるモデルの能力を検証するために、新規多肢選択医療視覚理解データセットが導入され、生物医学のVQA理解の進歩に関心のある視覚領域に焦点を当てることのプラスの影響を確認します。

要約(オリジナル)

Artificial intelligence has made significant strides in medical visual question answering (Med-VQA), yet prevalent studies often interpret images holistically, overlooking the visual regions of interest that may contain crucial information, potentially aligning with a doctor’s prior knowledge that can be incorporated with minimal annotations (e.g., bounding boxes). To address this gap, this paper introduces R-LLaVA, designed to enhance biomedical VQA understanding by integrating simple medical annotations as prior knowledge directly into the image space through CLIP. These annotated visual regions of interest are then fed into the LLaVA model during training, aiming to enrich the model’s understanding of biomedical queries. Experimental evaluation on four standard Med-VQA datasets demonstrates R-LLaVA’s superiority over existing state-of-the-art (SoTA) methods. Additionally, to verify the model’s capability in visual comprehension, a novel multiple-choice medical visual understanding dataset is introduced, confirming the positive impact of focusing on visual regions of interest in advancing biomedical VQA understanding.

arxiv情報

著者 Xupeng Chen,Zhixin Lai,Kangrui Ruan,Shichu Chen,Jiaxiang Liu,Zuozhu Liu
発行日 2025-01-30 18:16:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク