要約
Medical Visual Question Answering (Med-VQA) は、医療画像と質問に対する正解の予測を自動化することを目的としており、これにより医師の反復作業の削減と業務負荷の軽減を支援します。
既存のアプローチは主に、追加の包括的なデータセットを使用したモデルの事前トレーニングに焦点を当てており、その後、下流タスクのパフォーマンスを向上させるための微調整が行われます。
ただし、既存のモデルを探索して臨床関連情報を抽出することにも大きな価値があります。
この論文では、医療視覚的質問応答のための Latent Prompt Assist モデル (LaPA) を提案します。
まず、ターゲット回答の制約を持つ潜在プロンプトを生成する潜在プロンプト生成モジュールを設計します。
続いて、潜在プロンプトを利用してユニモーダルおよびマルチモーダルの特徴から臨床関連情報を抽出する、潜在プロンプト融合モジュールを備えたマルチモーダル融合ブロックを提案します。
さらに、疾患と臓器の関係を臨床関連情報と統合するための事前知識融合モジュールを導入します。
最後に、最終的に統合された情報と画像言語クロスモーダル情報を組み合わせて、最終的な答えを予測します。
公開されている 3 つの Med-VQA データセットに関する実験結果は、LaPA が最先端のモデル ARL を上回り、VQA-RAD、SLAKE、および VQA-2019 でそれぞれ 1.83%、0.63%、および 1.80% の改善を達成したことを示しています。
。
コードは https://github.com/GaryGuTC/LaPA_model で公開されています。
要約(オリジナル)
Medical visual question answering (Med-VQA) aims to automate the prediction of correct answers for medical images and questions, thereby assisting physicians in reducing repetitive tasks and alleviating their workload. Existing approaches primarily focus on pre-training models using additional and comprehensive datasets, followed by fine-tuning to enhance performance in downstream tasks. However, there is also significant value in exploring existing models to extract clinically relevant information. In this paper, we propose the Latent Prompt Assist model (LaPA) for medical visual question answering. Firstly, we design a latent prompt generation module to generate the latent prompt with the constraint of the target answer. Subsequently, we propose a multi-modal fusion block with latent prompt fusion module that utilizes the latent prompt to extract clinical-relevant information from uni-modal and multi-modal features. Additionally, we introduce a prior knowledge fusion module to integrate the relationship between diseases and organs with the clinical-relevant information. Finally, we combine the final integrated information with image-language cross-modal information to predict the final answers. Experimental results on three publicly available Med-VQA datasets demonstrate that LaPA outperforms the state-of-the-art model ARL, achieving improvements of 1.83%, 0.63%, and 1.80% on VQA-RAD, SLAKE, and VQA-2019, respectively. The code is publicly available at https://github.com/GaryGuTC/LaPA_model.
arxiv情報
著者 | Tiancheng Gu,Kaicheng Yang,Dongnan Liu,Weidong Cai |
発行日 | 2024-04-19 17:51:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google