Surgical-VQLA: Transformer with Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery

要約

コンピューター支援のシミュレーターや外科手術の録画ビデオが利用できるようになったにもかかわらず、若い研修医は依然として質問に答えるために専門家に大きく依存しています。
しかし、熟練した外科医は臨床や学術的な仕事で過負荷になっていることが多く、答える時間が限られていることがよくあります。
この目的のために、私たちは、記録されたビデオからロボット支援された手術シーンと活動の理解を容易にする手術質問応答システムを開発します。
既存の VQA 手法のほとんどは、視覚的特徴を抽出し、それらを質問の埋め込みテキストと融合して回答を生成するために、オブジェクト検出器と領域ベースの特徴抽出器を必要とします。
ただし、(1) データセットが小さく、境界ボックスの注釈がないため、手術物体検出モデルが不足しています。
(2) テキストと画像のような異種モダリティの現在の融合戦略は単純です。
(3) 局所的な応答が欠落しているが、これは複雑な手術シナリオでは重要です。
この論文では、回答予測中に特定の手術領域の位置を特定するためのロボット手術における視覚的質問局所的応答 (Surgical-VQLA) を提案します。
異種モダリティの融合に対処するために、ゲート ビジョン言語埋め込み (GVLE) を設計し、言語ビジョン トランスフォーマー (LViT) の入力パッチを構築して答えを予測します。
位置特定を行うために、LViT の予測ヘッドと並行して検出ヘッドを追加します。
また、GIoU 損失を統合して、質問応答モデルの精度を維持することで位置特定パフォーマンスを向上させます。
MICCAI チャレンジ EndoVis-17 および 18 からの公開されている手術ビデオを利用して、VQLA の 2 つのデータセットにアノテーションを付けます。私たちの検証結果は、Surgical-VQLA が手術場面をよりよく理解し、質問応答に関連する特定の領域を特定できることを示唆しています。
GVLE は、既存のベンチマークよりも優れたパフォーマンスを示すことで、効率的な言語ビジョン埋め込み手法を提供します。

要約(オリジナル)

Despite the availability of computer-aided simulators and recorded videos of surgical procedures, junior residents still heavily rely on experts to answer their queries. However, expert surgeons are often overloaded with clinical and academic workloads and limit their time in answering. For this purpose, we develop a surgical question-answering system to facilitate robot-assisted surgical scene and activity understanding from recorded videos. Most of the existing VQA methods require an object detector and regions based feature extractor to extract visual features and fuse them with the embedded text of the question for answer generation. However, (1) surgical object detection model is scarce due to smaller datasets and lack of bounding box annotation; (2) current fusion strategy of heterogeneous modalities like text and image is naive; (3) the localized answering is missing, which is crucial in complex surgical scenarios. In this paper, we propose Visual Question Localized-Answering in Robotic Surgery (Surgical-VQLA) to localize the specific surgical area during the answer prediction. To deal with the fusion of the heterogeneous modalities, we design gated vision-language embedding (GVLE) to build input patches for the Language Vision Transformer (LViT) to predict the answer. To get localization, we add the detection head in parallel with the prediction head of the LViT. We also integrate GIoU loss to boost localization performance by preserving the accuracy of the question-answering model. We annotate two datasets of VQLA by utilizing publicly available surgical videos from MICCAI challenges EndoVis-17 and 18. Our validation results suggest that Surgical-VQLA can better understand the surgical scene and localize the specific area related to the question-answering. GVLE presents an efficient language-vision embedding technique by showing superior performance over the existing benchmarks.

arxiv情報

著者 Long Bai,Mobarakol Islam,Lalithkumar Seenivasan,Hongliang Ren
発行日 2023-05-19 14:13:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO パーマリンク