要約
Visual Question Answering (VQA) モデルは、指定された画像に関する自然言語の質問に答えることを目的としています。
医療 VQA は、モデルのトレーニング時に使用したものとは異なる質問をする機能があるため、近年大きな注目を集めています。
ただし、既存の医療 VQA モデルは通常、関連するコンテンツが画像内のどこにあるかではなく、画像全体に関する質問に答えることに重点を置いています。
その結果、VQA モデルの解釈力と、特定の画像領域についてモデルを調査する可能性が制限されます。
この論文では、質問に答えるために必要なコンテキストを考慮しながら、画像領域に関する質問に答えることができるモデルを開発することで、この制限に対処する医療 VQA の新しいアプローチを提案します。
私たちの実験結果は、私たちが提案したモデルの有効性を示しており、3 つのデータセットで既存の方法を上回っています。
コードとデータは https://github.com/sergiotasconmorales/locvqa で入手できます。
要約(オリジナル)
Visual Question Answering (VQA) models aim to answer natural language questions about given images. Due to its ability to ask questions that differ from those used when training the model, medical VQA has received substantial attention in recent years. However, existing medical VQA models typically focus on answering questions that refer to an entire image rather than where the relevant content may be located in the image. Consequently, VQA models are limited in their interpretability power and the possibility to probe the model about specific image regions. This paper proposes a novel approach for medical VQA that addresses this limitation by developing a model that can answer questions about image regions while considering the context necessary to answer the questions. Our experimental results demonstrate the effectiveness of our proposed model, outperforming existing methods on three datasets. Our code and data are available at https://github.com/sergiotasconmorales/locvqa.
arxiv情報
著者 | Sergio Tascon-Morales,Pablo Márquez-Neila,Raphael Sznitman |
発行日 | 2023-07-03 14:47:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google