MISS: A Generative Pretraining and Finetuning Approach for Med-VQA

要約

医療視覚的質問応答 (VQA) は、困難なマルチモーダル タスクであり、視覚言語事前トレーニング (VLP) モデルによって汎化パフォーマンスを効果的に向上させることができます。
ただし、医療分野のほとんどの手法は、VQA を回答分類タスクとして扱っており、実際のアプリケーション シナリオに移すのは困難です。
さらに、医療画像のプライバシーと高価なアノテーション プロセスにより、事前トレーニング用の大規模な医療画像とテキストのペアのデータセットが大幅に不足しています。
この論文では、医療 VQA タスクのための大規模なマルチタスク自己教師あり学習ベースのフレームワーク (MISS) を提案します。
既存の方法とは異なり、私たちは医療 VQA を生成タスクとして扱います。
テキスト エンコーダーとマルチモーダル エンコーダーを統合し、マルチタスク学習を通じて画像とテキストの特徴を調整します。
さらに、大規模言語モデル (LLM) を使用してシングルモーダル画像データセットの特徴空間を拡張し、従来の医療視覚野タスク データを VLP に適用できるようにする Transfer-and-Caption 手法を提案します。
実験により、私たちの方法がより少ないマルチモーダル データセットで優れた結果を達成し、生成 VQA モデルの利点が実証されたことが示されています。
コードとモデルの重みは、論文が受理され次第公開されます。

要約(オリジナル)

Medical visual question answering (VQA) is a challenging multimodal task, where Vision-Language Pre-training (VLP) models can effectively improve the generalization performance. However, most methods in the medical field treat VQA as an answer classification task which is difficult to transfer to practical application scenarios. Additionally, due to the privacy of medical images and the expensive annotation process, large-scale medical image-text pairs datasets for pretraining are severely lacking. In this paper, we propose a large-scale MultI-task Self-Supervised learning based framework (MISS) for medical VQA tasks. Unlike existing methods, we treat medical VQA as a generative task. We unify the text encoder and multimodal encoder and align image-text features through multi-task learning. Furthermore, we propose a Transfer-and-Caption method that extends the feature space of single-modal image datasets using large language models (LLMs), enabling those traditional medical vision field task data to be applied to VLP. Experiments show that our method achieves excellent results with fewer multimodal datasets and demonstrates the advantages of generative VQA models. The code and model weights will be released upon the paper’s acceptance.

arxiv情報

著者 Jiawei Chen,Dingkang Yang,Yue Jiang,Yuxuan Lei,Lihua Zhang
発行日 2024-01-10 13:56:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク