Hierarchical Modeling for Medical Visual Question Answering with Cross-Attention Fusion

要約

医療視覚的質問応答(MED-VQA)は、医療画像を使用して臨床的質問に答え、診断を支援します。
MEDVQAシステムの設計は、臨床診断の支援と診断精度の向上において非常に重要です。
この基盤の上に構築された階層医療VQAは、医学的質問を階層構造に組織し、微調整された区別を処理するためのレベル固有の予測を作成することにより、医療VQAを拡張します。
最近、多くの研究が階層的なMEDVQAタスクと確立されたデータセットを提案していますが、いくつかの問題はまだ残っています。(1)不完全な階層モデリングは、階層全体のセマンティック断片化を引き起こす質問レベル間の不完全な区別を引き起こします。
(2)医療シナリオにおける重要な局所セマンティック相関を曖昧にするトランスベースのクロスモーダル自己触媒融合方法における暗黙の学習への過度の依存。
これらの問題に対処するために、この研究では、2つのモジュールを含むHICA-VQAメソッドを提案しています。階層的な医学的質問のプロンプトと階層的な回答デコーダーです。
階層的なプロンプトモジュールは、画像機能を備えた階層テキストプロンプトをプリグリインして、質問の種類に従って特定の画像領域に焦点を合わせてモデルを導き、階層デコーダーは異なるレベルでの質問の個別の予測を実行して、粒状全体の精度を改善します。
このフレームワークには、画像がクエリとして機能し、テキストがキー価値のペアとして機能するクロスアテンション融合モジュールも組み込まれています。
Rad-Restructベンチマークでの実験は、HICA-VQAフレームワークが階層的な微調整された質問に答える際に既存の最先端の方法よりも優れていることを示しています。
この研究は、階層的な視覚的質問回答システムの効果的な経路を提供し、医療イメージの理解を進めます。

要約(オリジナル)

Medical Visual Question Answering (Med-VQA) answers clinical questions using medical images, aiding diagnosis. Designing the MedVQA system holds profound importance in assisting clinical diagnosis and enhancing diagnostic accuracy. Building upon this foundation, Hierarchical Medical VQA extends Medical VQA by organizing medical questions into a hierarchical structure and making level-specific predictions to handle fine-grained distinctions. Recently, many studies have proposed hierarchical MedVQA tasks and established datasets, However, several issues still remain: (1) imperfect hierarchical modeling leads to poor differentiation between question levels causing semantic fragmentation across hierarchies. (2) Excessive reliance on implicit learning in Transformer-based cross-modal self-attention fusion methods, which obscures crucial local semantic correlations in medical scenarios. To address these issues, this study proposes a HiCA-VQA method, including two modules: Hierarchical Prompting for fine-grained medical questions and Hierarchical Answer Decoders. The hierarchical prompting module pre-aligns hierarchical text prompts with image features to guide the model in focusing on specific image regions according to question types, while the hierarchical decoder performs separate predictions for questions at different levels to improve accuracy across granularities. The framework also incorporates a cross-attention fusion module where images serve as queries and text as key-value pairs. Experiments on the Rad-Restruct benchmark demonstrate that the HiCA-VQA framework better outperforms existing state-of-the-art methods in answering hierarchical fine-grained questions. This study provides an effective pathway for hierarchical visual question answering systems, advancing medical image understanding.

arxiv情報

著者 Junkai Zhang,Bin Li,Shoujun Zhou,Yue Du
発行日 2025-04-10 11:52:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク