Surgical-VQLA++: Adversarial Contrastive Learning for Calibrated Robust Visual Question-Localized Answering in Robotic Surgery

要約

Medical Visual Question Answering (VQA) は、視覚情報と臨床上の意思決定の間のギャップを埋め、医師が臨床画像やビデオから理解を引き出すことができるようにします。
特に、外科用 VQA は外科データの解釈を強化し、正確な診断、効果的な教育、臨床介入を支援します。
ただし、VQA モデルでは、与えられた質問に対応する関心領域を視覚的に示すことができないため、手術場面の理解が不完全になります。
これに取り組むために、手術画像に関する特定の質問に対して正確かつコンテキストを認識した応答を行うための、外科用視覚的質問局所応答 (VQLA) を提案します。
さらに、手術シナリオにおける安全性への強い要求と、画像取得と送信における潜在的な破損に対処するために、統合および調整するためのCalibrated Co-tention Gated Vision-Language (C$^2$G-ViL)埋め込みと呼ばれる新しいアプローチを提案します。
マルチモーダルな情報を効果的に提供します。
さらに、敵対的サンプルベースの対照学習戦略を活用して、パフォーマンスと堅牢性を向上させます。
また、EndoVis-18-VQLA および EndoVis-17-VQLA データセットを拡張して、データの範囲とアプリケーションを拡大します。
前述のデータセットに対する広範な実験により、私たちのソリューションの優れたパフォーマンスと堅牢性が実証されました。
当社のソリューションは、現実世界の画像破損に効果的に対処できます。
したがって、私たちが提案するアプローチは、外科教育、患者ケアを支援し、外科結果を向上させるための効果的なツールとして機能します。

要約(オリジナル)

Medical visual question answering (VQA) bridges the gap between visual information and clinical decision-making, enabling doctors to extract understanding from clinical images and videos. In particular, surgical VQA can enhance the interpretation of surgical data, aiding in accurate diagnoses, effective education, and clinical interventions. However, the inability of VQA models to visually indicate the regions of interest corresponding to the given questions results in incomplete comprehension of the surgical scene. To tackle this, we propose the surgical visual question localized-answering (VQLA) for precise and context-aware responses to specific queries regarding surgical images. Furthermore, to address the strong demand for safety in surgical scenarios and potential corruptions in image acquisition and transmission, we propose a novel approach called Calibrated Co-Attention Gated Vision-Language (C$^2$G-ViL) embedding to integrate and align multimodal information effectively. Additionally, we leverage the adversarial sample-based contrastive learning strategy to boost our performance and robustness. We also extend our EndoVis-18-VQLA and EndoVis-17-VQLA datasets to broaden the scope and application of our data. Extensive experiments on the aforementioned datasets demonstrate the remarkable performance and robustness of our solution. Our solution can effectively combat real-world image corruption. Thus, our proposed approach can serve as an effective tool for assisting surgical education, patient care, and enhancing surgical outcomes.

arxiv情報

著者 Long Bai,Guankun Wang,Mobarakol Islam,Lalithkumar Seenivasan,An Wang,Hongliang Ren
発行日 2024-08-09 09:23:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク