Q2ATransformer: Improving Medical VQA via an Answer Querying Decoder

要約

タイトル:回答クエリングデコーダを通じた Q2ATransformer による医療 VQA の改善

要約:

– 医療ビジュアルクエスチョンアンサー(VQA)システムは、医療画像に含まれる臨床的な情報を理解するための支援的な役割を果たします。
– 医療画像への質問には、閉じた(Yes / No のような)質問とオープンエンドの2つのカテゴリがあります。
– 既存の医療 VQA 方法の大多数は分類アプローチに依存していますが、一部の方法は生成アプローチ、または両方の混合を試みています。
– 分類アプローチは比較的簡単ですが、長いオープンエンドの質問にはあまり性能が良くありません。
– このギャップを埋めるために、本論文では、新しいトランスフォーマーベースの医療 VQA 用のフレームワークを提案します(Q2ATransformerと呼ばれます)。
– この方法は、分類と生成アプローチの両方の利点を統合し、閉じた質問とオープンエンドの質問に対して統一的な処理を提供します。
– 具体的には、追加の Transformer デコーダを紹介し、学習可能な候補回答の埋め込みセットを持たせ、画像と質問のペアに対して回答クラスの存在を問い合わせます。
– 候補回答の埋め込みは Transformer アテンションで処理され、画像と質問ペアの統合特徴と相互作用することで決定が下されます。
– 分類ベースのアプローチであるにもかかわらず、当社の方法は、生成ベースのアプローチのように回答情報と対話するメカニズムを提供します。
– 一方、分類によって、回答を検索するスペースを減らすことで、タスクの難しさを緩和します。
– 当社の方法は、2つの医療 VQA ベンチマークで新しい最高性能を達成します。
– 特に、オープンエンドの質問に対してVQA-RADでは79.19%、PathVQAでは54.85%で、それぞれ16.09%と41.45%の絶対的な改善を達成しています。

要約(オリジナル)

Medical Visual Question Answering (VQA) systems play a supporting role to understand clinic-relevant information carried by medical images. The questions to a medical image include two categories: close-end (such as Yes/No question) and open-end. To obtain answers, the majority of the existing medical VQA methods relies on classification approaches, while a few works attempt to use generation approaches or a mixture of the two. The classification approaches are relatively simple but perform poorly on long open-end questions. To bridge this gap, in this paper, we propose a new Transformer based framework for medical VQA (named as Q2ATransformer), which integrates the advantages of both the classification and the generation approaches and provides a unified treatment for the close-end and open-end questions. Specifically, we introduce an additional Transformer decoder with a set of learnable candidate answer embeddings to query the existence of each answer class to a given image-question pair. Through the Transformer attention, the candidate answer embeddings interact with the fused features of the image-question pair to make the decision. In this way, despite being a classification-based approach, our method provides a mechanism to interact with the answer information for prediction like the generation-based approaches. On the other hand, by classification, we mitigate the task difficulty by reducing the search space of answers. Our method achieves new state-of-the-art performance on two medical VQA benchmarks. Especially, for the open-end questions, we achieve 79.19% on VQA-RAD and 54.85% on PathVQA, with 16.09% and 41.45% absolute improvements, respectively.

arxiv情報

著者 Yunyi Liu,Zhanyu Wang,Dong Xu,Luping Zhou
発行日 2023-04-04 08:06:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク