Surgical-VQLA++: Adversarial Contrastive Learning for Calibrated Robust Visual Question-Localized Answering in Robotic Surgery

要約

医療ビジュアル質問応答(VQA)は、視覚情報と臨床的意思決定のギャップを埋め、医師が臨床画像やビデオから理解を引き出すことを可能にする。特に手術VQAは、手術データの解釈を強化し、正確な診断、効果的な教育、臨床介入を支援することができる。しかし、VQAモデルでは、与えられた質問に対応する関心領域を視覚的に示すことができないため、手術シーンの理解が不完全になる。これに対処するため、我々は、手術画像に関する特定のクエリに対する正確かつ文脈を考慮した応答のための手術視覚的質問局所化応答(VQLA)を提案する。さらに、手術シナリオにおける安全性への強い要求と、画像の取得と送信における潜在的な破損に対処するために、我々は、マルチモーダル情報を効果的に統合し、整列するために、Calibrated Co-Attention Gated Vision-Language (C$^2$G-ViL)埋め込みと呼ばれる新しいアプローチを提案する。さらに、敵対的サンプルに基づく対比学習戦略を活用し、性能と頑健性を向上させる。また、EndoVis-18-VQLAとEndoVis-17-VQLAのデータセットを拡張し、データの範囲と応用を広げる。前述のデータセットに対する広範な実験は、我々のソリューションの顕著な性能と頑健性を実証している。我々のソリューションは、実世界の画像破損と効果的に戦うことができる。従って、我々の提案するアプローチは、外科教育、患者ケアを支援し、手術結果を向上させるための効果的なツールとして機能することができる。

要約(オリジナル)

Medical visual question answering (VQA) bridges the gap between visual information and clinical decision-making, enabling doctors to extract understanding from clinical images and videos. In particular, surgical VQA can enhance the interpretation of surgical data, aiding in accurate diagnoses, effective education, and clinical interventions. However, the inability of VQA models to visually indicate the regions of interest corresponding to the given questions results in incomplete comprehension of the surgical scene. To tackle this, we propose the surgical visual question localized-answering (VQLA) for precise and context-aware responses to specific queries regarding surgical images. Furthermore, to address the strong demand for safety in surgical scenarios and potential corruptions in image acquisition and transmission, we propose a novel approach called Calibrated Co-Attention Gated Vision-Language (C$^2$G-ViL) embedding to integrate and align multimodal information effectively. Additionally, we leverage the adversarial sample-based contrastive learning strategy to boost our performance and robustness. We also extend our EndoVis-18-VQLA and EndoVis-17-VQLA datasets to broaden the scope and application of our data. Extensive experiments on the aforementioned datasets demonstrate the remarkable performance and robustness of our solution. Our solution can effectively combat real-world image corruption. Thus, our proposed approach can serve as an effective tool for assisting surgical education, patient care, and enhancing surgical outcomes.

arxiv情報

著者 Long Bai,Guankun Wang,Mobarakol Islam,Lalithkumar Seenivasan,An Wang,Hongliang Ren
発行日 2024-09-01 14:43:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク