Consistency-preserving Visual Question Answering in Medical Imaging

要約

Visual Question Answering(VQA)モデルは、画像と自然言語の質問を入力として受け取り、質問に対する回答を推測します。
最近、医用画像におけるVQAシステムは、患者の関与や臨床医のセカンドオピニオンなどの潜在的な利点のおかげで人気を博しています。
ほとんどの研究努力はアーキテクチャの改善とデータ関連の制限の克服に焦点を合わせてきましたが、信頼できるモデルを確立する上で重要な役割を果たしているにもかかわらず、回答の一貫性は見過ごされてきました。
この作業では、質問間の関係をトレーニングプロセスに含めることができる、新しい損失関数と対応するトレーニング手順を提案します。
具体的には、知覚と推論の質問の間の含意が事前に知られている場合を検討します。
私たちのアプローチの利点を示すために、眼底イメージングからの糖尿病性黄斑浮腫(DME)の臨床的に関連するタスクでそれを評価します。
私たちの実験は、モデルの一貫性を改善するだけでなく、全体的なモデルの精度の点でも、私たちの方法が最先端のベースラインを上回っていることを示しています。
私たちのコードとデータはhttps://github.com/sergiotasconmorales/consistency_vqaで入手できます。

要約(オリジナル)

Visual Question Answering (VQA) models take an image and a natural-language question as input and infer the answer to the question. Recently, VQA systems in medical imaging have gained popularity thanks to potential advantages such as patient engagement and second opinions for clinicians. While most research efforts have been focused on improving architectures and overcoming data-related limitations, answer consistency has been overlooked even though it plays a critical role in establishing trustworthy models. In this work, we propose a novel loss function and corresponding training procedure that allows the inclusion of relations between questions into the training process. Specifically, we consider the case where implications between perception and reasoning questions are known a-priori. To show the benefits of our approach, we evaluate it on the clinically relevant task of Diabetic Macular Edema (DME) staging from fundus imaging. Our experiments show that our method outperforms state-of-the-art baselines, not only by improving model consistency, but also in terms of overall model accuracy. Our code and data are available at https://github.com/sergiotasconmorales/consistency_vqa.

arxiv情報

著者 Sergio Tascon-Morales,Pablo Márquez-Neila,Raphael Sznitman
発行日 2022-06-27 13:38:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク