Disentangling spatio-temporal knowledge for weakly supervised object detection and segmentation in surgical video

要約

弱教師付きビデオオブジェクトセグメンテーション(WSVOS)は、オブジェクトマスクの大規模な学習データセットを必要とせず、代わりにオブジェクトの存在を示す粗いビデオラベルに依存して、セグメンテーションマップの識別を可能にする。現在の最先端の手法では、動きの手がかりを用いる複数の独立した処理段階を必要とするか、エンドツーエンドで学習可能なネットワークの場合、セグメンテーションの精度に欠けるが、その理由の1つは、物体の存在が一過性の動画からセグメンテーションマップを学習することの難しさである。このため、複数の手術器具が頻繁に視野に入ったり出たりするような手術映像のセマンティックアノテーションへのWSVOSの適用には限界がある。本論文では、高品質のクラス活性化マップ(CAM)を予測するために、半結合知識蒸留を用いて時空間情報を分離するフレームワークである、ビデオ時空間分離ネットワーク(VDST-Net)を紹介する。ビデオ内のオブジェクトの位置とタイミングに関する詳細が提供されない場合に、時間的競合を解決するように設計された教師ネットワークは、時間的依存関係を活用することにより、時間的情報を統合する生徒ネットワークと連携する。本フレームワークの有効性を、公開参照データセットと、オブジェクトが平均して注釈付きフレームの60%未満にしか存在しない、より困難な外科手術ビデオデータセットで実証する。本手法は最先端の技術を凌駕し、ビデオレベルの弱い監視の下で、優れたセグメンテーションマスクを生成する。

要約(オリジナル)

Weakly supervised video object segmentation (WSVOS) enables the identification of segmentation maps without requiring an extensive training dataset of object masks, relying instead on coarse video labels indicating object presence. Current state-of-the-art methods either require multiple independent stages of processing that employ motion cues or, in the case of end-to-end trainable networks, lack in segmentation accuracy, in part due to the difficulty of learning segmentation maps from videos with transient object presence. This limits the application of WSVOS for semantic annotation of surgical videos where multiple surgical tools frequently move in and out of the field of view, a problem that is more difficult than typically encountered in WSVOS. This paper introduces Video Spatio-Temporal Disentanglement Networks (VDST-Net), a framework to disentangle spatiotemporal information using semi-decoupled knowledge distillation to predict high-quality class activation maps (CAMs). A teacher network designed to resolve temporal conflicts when specifics about object location and timing in the video are not provided works with a student network that integrates information over time by leveraging temporal dependencies. We demonstrate the efficacy of our framework on a public reference dataset and on a more challenging surgical video dataset where objects are, on average, present in less than 60\% of annotated frames. Our method outperforms state-of-the-art techniques and generates superior segmentation masks under video-level weak supervision.

arxiv情報

著者 Guiqiu Liao,Matjaz Jogan,Sai Koushik,Eric Eaton,Daniel A. Hashimoto
発行日 2024-11-01 14:19:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク