Tri-VQA: Triangular Reasoning Medical Visual Question Answering for Multi-Attribute Analysis

要約

Medical Visual Question Answering (Med-VQA) の交差点は、患者の関与やセカンドオピニオンに対する臨床専門家の関与などの利点を持つ、挑戦的な研究テーマです。
しかし、共同埋め込みに基づく既存の Med-VQA 手法では、提供された結果が正しい推論に基づいているのか、それとも偶然の回答に基づいているのかを説明できず、VQA の回答の信頼性が損なわれています。
この論文では、より凝集性があり安定した Med-VQA 構造の構築を調査します。
因果効果を動機として、「なぜこの答えになるのか?」という観点から逆因果関係の質問を構築する、新しい三角推論 VQA (Tri-VQA) フレームワークを提案します。
答えの源を解明し、より合理的な推論プロセスを刺激します。
私たちは、5 つのセンターからの超音波内視鏡 (EUS) 多属性注釈付きデータセットでメソッドを評価し、医療 VQA データセットでテストします。
実験結果は、既存の方法に対する私たちのアプローチの優位性を示しています。
私たちのコードと事前トレーニングされたモデルは https://anonymous.4open.science/r/Tri_VQA で入手できます。

要約(オリジナル)

The intersection of medical Visual Question Answering (Med-VQA) is a challenging research topic with advantages including patient engagement and clinical expert involvement for second opinions. However, existing Med-VQA methods based on joint embedding fail to explain whether their provided results are based on correct reasoning or coincidental answers, which undermines the credibility of VQA answers. In this paper, we investigate the construction of a more cohesive and stable Med-VQA structure. Motivated by causal effect, we propose a novel Triangular Reasoning VQA (Tri-VQA) framework, which constructs reverse causal questions from the perspective of ‘Why this answer?’ to elucidate the source of the answer and stimulate more reasonable forward reasoning processes. We evaluate our method on the Endoscopic Ultrasound (EUS) multi-attribute annotated dataset from five centers, and test it on medical VQA datasets. Experimental results demonstrate the superiority of our approach over existing methods. Our codes and pre-trained models are available at https://anonymous.4open.science/r/Tri_VQA.

arxiv情報

著者 Lin Fan,Xun Gong,Cenyang Zheng,Yafei Ou
発行日 2024-06-21 10:50:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, I.2.10 パーマリンク