Robotic Scene Segmentation with Memory Network for Runtime Surgical Context Inference

要約

手術コンテキスト推論は、ワークフロー分析、スキル評価、エラー検出を容易にするため、ロボット支援手術において最近大きな注目を集めています。
ただし、ランタイムコンテキスト推論は、ビデオデータのセグメンテーションに基づいて、手術シーン内のツールとオブジェクト間の相互作用をタイムリーかつ正確に検出する必要があるため、困難です。
一方、既存の最先端のビデオ セグメンテーション手法は、頻度の低いクラスに偏っていることが多く、セグメント化されたマスクに時間的な一貫性を提供できません。
これは、コンテキストの推論と重大な状態の正確な検出に悪影響を与える可能性があります。
この研究では、時空通信ネットワーク (STCN) を使用したこれらの課題の解決策を提案します。
STCN は、バイナリ セグメンテーションを実行し、クラスの不均衡の影響を最小限に抑えるメモリ ネットワークです。
STCN でメモリ バンクを使用すると、過去の画像とセグメンテーション情報を利用できるため、マスクの一貫性が確保されます。
公開されている JIGSAWS データセットを使用した実験では、STCN が針や糸などのセグメント化が難しいオブジェクトに対して優れたセグメント化パフォーマンスを実現し、最先端のものと比較してコンテキスト推論が向上していることが実証されました。
また、パフォーマンスを損なうことなく、実行時にセグメンテーションとコンテキスト推論を実行できることも示します。

要約(オリジナル)

Surgical context inference has recently garnered significant attention in robot-assisted surgery as it can facilitate workflow analysis, skill assessment, and error detection. However, runtime context inference is challenging since it requires timely and accurate detection of the interactions among the tools and objects in the surgical scene based on the segmentation of video data. On the other hand, existing state-of-the-art video segmentation methods are often biased against infrequent classes and fail to provide temporal consistency for segmented masks. This can negatively impact the context inference and accurate detection of critical states. In this study, we propose a solution to these challenges using a Space Time Correspondence Network (STCN). STCN is a memory network that performs binary segmentation and minimizes the effects of class imbalance. The use of a memory bank in STCN allows for the utilization of past image and segmentation information, thereby ensuring consistency of the masks. Our experiments using the publicly available JIGSAWS dataset demonstrate that STCN achieves superior segmentation performance for objects that are difficult to segment, such as needle and thread, and improves context inference compared to the state-of-the-art. We also demonstrate that segmentation and context inference can be performed at runtime without compromising performance.

arxiv情報

著者 Zongyu Li,Ian Reyes,Homa Alemzadeh
発行日 2023-08-24 13:44:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 65D19, 68T07, 68T40, cs.CV パーマリンク