ASI-Seg: Audio-Driven Surgical Instrument Segmentation with Surgeon Intention Understanding

要約

手術器具のセグメンテーションは手術場面を理解する上で非常に重要であり、それによって手術の安全性が促進されます。
既存のアルゴリズムは、入力画像内の事前に定義されたカテゴリのすべての器具を直接検出し、外科医の意図に従って特定の器具をセグメント化する機能を欠いていました。
手術のさまざまな段階で、外科医はさまざまな好みを示し、さまざまな手術器具に注目します。
したがって、外科医の意図に従う器具セグメンテーション アルゴリズムは、無関係な器具による注意散漫を最小限に抑え、外科医を大幅に支援することができます。
最近の Segment Anything Model (SAM) では、プロンプトに従ってオブジェクトをセグメント化する機能が明らかになりましたが、プロンプトに対する手動の注釈は手術中には実用的ではありません。
手術室におけるこれらの制限に対処するために、外科医の音声コマンドを解析することで必要な手術器具を正確にセグメント化する、ASI-Seg と呼ばれる音声駆動の手術器具セグメンテーション フレームワークを提案します。
具体的には、音声コマンドからセグメンテーションの意図を解釈し、関連する楽器の詳細を取得してセグメンテーションを容易にする、意図指向のマルチモーダル融合を提案します。
さらに、必要な手術器具の ASI-Seg セグメントをガイドするために、必要な器具と無関係な器具を効果的に区別する対照学習プロンプト エンコーダーを考案しました。
したがって、当社の ASI-Seg は手術室でのワークフローを促進し、それによって的を絞ったサポートを提供し、外科医の認知的負荷を軽減します。
ASI-Seg フレームワークを検証するために広範な実験が実行され、セマンティック セグメンテーションと意図指向セグメンテーションの両方において、古典的な最先端の医療 SAM に比べて顕著な利点が明らかになりました。
ソース コードは https://github.com/Zonmgin-Zhang/ASI-Seg で入手できます。

要約(オリジナル)

Surgical instrument segmentation is crucial in surgical scene understanding, thereby facilitating surgical safety. Existing algorithms directly detected all instruments of pre-defined categories in the input image, lacking the capability to segment specific instruments according to the surgeon’s intention. During different stages of surgery, surgeons exhibit varying preferences and focus toward different surgical instruments. Therefore, an instrument segmentation algorithm that adheres to the surgeon’s intention can minimize distractions from irrelevant instruments and assist surgeons to a great extent. The recent Segment Anything Model (SAM) reveals the capability to segment objects following prompts, but the manual annotations for prompts are impractical during the surgery. To address these limitations in operating rooms, we propose an audio-driven surgical instrument segmentation framework, named ASI-Seg, to accurately segment the required surgical instruments by parsing the audio commands of surgeons. Specifically, we propose an intention-oriented multimodal fusion to interpret the segmentation intention from audio commands and retrieve relevant instrument details to facilitate segmentation. Moreover, to guide our ASI-Seg segment of the required surgical instruments, we devise a contrastive learning prompt encoder to effectively distinguish the required instruments from the irrelevant ones. Therefore, our ASI-Seg promotes the workflow in the operating rooms, thereby providing targeted support and reducing the cognitive load on surgeons. Extensive experiments are performed to validate the ASI-Seg framework, which reveals remarkable advantages over classical state-of-the-art and medical SAMs in both semantic segmentation and intention-oriented segmentation. The source code is available at https://github.com/Zonmgin-Zhang/ASI-Seg.

arxiv情報

著者 Zhen Chen,Zongming Zhang,Wenwu Guo,Xingjian Luo,Long Bai,Jinlin Wu,Hongliang Ren,Hongbin Liu
発行日 2024-07-28 09:25:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC, cs.RO パーマリンク