RAMM: Retrieval-augmented Biomedical Visual Question Answering with Multi-modal Pre-training


視覚と言語のマルチモーダル事前トレーニングと微調整は、視​​覚的質問応答 (VQA) で大きな成功を収めています。
一般的なドメイン VQA と比較して、生物医学 VQA のパフォーマンスは、データが限られているという欠点があります。
この論文では、データ制限の問題を克服するために、生物医学 VQA 用の RAMM という名前の検索強化された事前トレーニングと微調整のパラダイムを提案します。
具体的には、PubMed からさまざまな患者の状況を含む患者ベースの画像とテキストのペアを提供する PMCPM という名前の新しい生物医学データセットを収集します。
次に、生物医学のマルチモーダル モデルを事前トレーニングして、画像とテキストのペアの視覚的表現とテキスト表現を学習し、これらの表現を画像とテキストの対比目的 (ITC) に合わせます。
事前トレーニングデータセットから ITC に基づいて類似の画像とテキストのペアを取得し、画像の表現と質問を取得した画像とテキストと融合させるための新しい検索注意モジュールを導入することを提案します。
実験は、検索が強化された事前トレーニングと微調整のパラダイムが、Med-VQA2019、Med-VQA2021、VQARAD、および SLAKE データセットで最先端のパフォーマンスを実現することを示しています。
さらなる分析は、提案された RAMM と PMCPM が、以前のリソースと方法と比較して、生物医学 VQA のパフォーマンスを向上させることができることを示しています。


Vision-and-language multi-modal pretraining and fine-tuning have shown great success in visual question answering (VQA). Compared to general domain VQA, the performance of biomedical VQA suffers from limited data. In this paper, we propose a retrieval-augmented pretrain-and-finetune paradigm named RAMM for biomedical VQA to overcome the data limitation issue. Specifically, we collect a new biomedical dataset named PMCPM which offers patient-based image-text pairs containing diverse patient situations from PubMed. Then, we pretrain the biomedical multi-modal model to learn visual and textual representation for image-text pairs and align these representations with image-text contrastive objective (ITC). Finally, we propose a retrieval-augmented method to better use the limited data. We propose to retrieve similar image-text pairs based on ITC from pretraining datasets and introduce a novel retrieval-attention module to fuse the representation of the image and the question with the retrieved images and texts. Experiments demonstrate that our retrieval-augmented pretrain-and-finetune paradigm obtains state-of-the-art performance on Med-VQA2019, Med-VQA2021, VQARAD, and SLAKE datasets. Further analysis shows that the proposed RAMM and PMCPM can enhance biomedical VQA performance compared with previous resources and methods. We will open-source our dataset, codes, and pretrained model.


著者 Zheng Yuan,Qiao Jin,Chuanqi Tan,Zhengyun Zhao,Hongyi Yuan,Fei Huang,Songfang Huang
発行日 2023-03-01 14:21:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク