Surgical-VQA: Visual Question Answering in Surgical Scenes using Transformer

要約

手術における視覚的質問応答(VQA)は、ほとんど未踏です。
専門の外科医は不足しており、臨床的および学術的な作業負荷で過負荷になっていることがよくあります。
この過負荷は、多くの場合、外科手術に関連する患者、医学生、または研修医からの質問票に回答する時間を制限します。
時々、学生と後輩の居住者はまた、混乱を減らすために授業中にあまりにも多くの質問をすることを控えます。
コンピューター支援シミュレーターと過去の外科的処置の記録が彼らのスキルを観察し改善するために利用可能になっている一方で、彼らは依然として彼らの質問に答えるために医療専門家に大きく依存しています。
信頼できる「セカンドオピニオン」としてSurgical-VQAシステムを使用すると、バックアップとして機能し、これらの質問に答える際の医療専門家の負担を軽減できます。
注釈付きの医療データがなく、ドメイン固有の用語が存在するため、外科手術のためのVQAの調査が制限されています。
この作業では、手術シーンに基づいて手術手順に関する質問票に回答するSurgical-VQAタスクを設計します。
MICCAI内視鏡ビジョンチャレンジ2018データセットとワークフロー認識データセットをさらに拡張し、分類と文ベースの回答を含む2つの外科用VQAデータセットを紹介します。
Surgical-VQAを実行するために、ビジョンテキストトランスフォーマーモデルを採用しています。
さらに、ビジュアルトークンとテキストトークン間の相互作用を強制する残差MLPベースのVisualBertエンコーダモデルを導入し、分類ベースの応答のパフォーマンスを向上させます。
さらに、分類と文ベースの回答の両方で、入力画像パッチの数と時間的視覚的特徴がモデルのパフォーマンスに与える影響を調査します。

要約(オリジナル)

Visual question answering (VQA) in surgery is largely unexplored. Expert surgeons are scarce and are often overloaded with clinical and academic workloads. This overload often limits their time answering questionnaires from patients, medical students or junior residents related to surgical procedures. At times, students and junior residents also refrain from asking too many questions during classes to reduce disruption. While computer-aided simulators and recording of past surgical procedures have been made available for them to observe and improve their skills, they still hugely rely on medical experts to answer their questions. Having a Surgical-VQA system as a reliable ‘second opinion’ could act as a backup and ease the load on the medical experts in answering these questions. The lack of annotated medical data and the presence of domain-specific terms has limited the exploration of VQA for surgical procedures. In this work, we design a Surgical-VQA task that answers questionnaires on surgical procedures based on the surgical scene. Extending the MICCAI endoscopic vision challenge 2018 dataset and workflow recognition dataset further, we introduce two Surgical-VQA datasets with classification and sentence-based answers. To perform Surgical-VQA, we employ vision-text transformers models. We further introduce a residual MLP-based VisualBert encoder model that enforces interaction between visual and text tokens, improving performance in classification-based answering. Furthermore, we study the influence of the number of input image patches and temporal visual features on the model performance in both classification and sentence-based answering.

arxiv情報

著者 Lalithkumar Seenivasan,Mobarakol Islam,Adithya Krishna,Hongliang Ren
発行日 2022-06-22 13:21:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, eess.IV パーマリンク