Disentangling spatio-temporal knowledge for weakly supervised object detection and segmentation in surgical video

要約

弱教師ビデオ オブジェクト セグメンテーション (WSVOS) を使用すると、オブジェクト マスクの広範なトレーニング データセットを必要とせず、代わりにオブジェクトの存在を示す粗いビデオ ラベルに依存してセグメンテーション マップを識別できます。
現在の最先端の方法では、モーション キューを使用する複数の独立した処理段階が必要か、エンドツーエンドのトレーニング可能なネットワークの場合、セグメンテーション マップを学習することが難しいこともあり、セグメンテーションの精度が不足しています。
一時的なオブジェクトの存在のあるビデオ。
これにより、複数の手術ツールが視野の内外を頻繁に移動する手術ビデオのセマンティック アノテーションへの WSVOS の適用が制限されますが、この問題は通常 WSVOS で発生するよりも困難です。
この論文では、高品質のクラス活性化マップ (CAM) を予測するために半分離知識蒸留を使用して時空間情報を解きほぐすフレームワークであるビデオ時空間解きほぐしネットワーク (VDST-Net) を紹介します。
ビデオ内のオブジェクトの位置とタイミングに関する詳細が提供されない場合に、時間的な競合を解決するように設計された教師ネットワークは、時間的な依存関係を利用して時間の経過とともに情報を統合する生徒ネットワークと連携します。
私たちは、公開されている参照データセットと、オブジェクトが平均してアノテーション付きフレームの 60\% 未満に存在する、より困難な手術ビデオ データセットでフレームワークの有効性を実証します。
私たちの方法は最先端の技術を上回り、ビデオレベルの弱い監視下で優れたセグメンテーションマスクを生成します。

要約(オリジナル)

Weakly supervised video object segmentation (WSVOS) enables the identification of segmentation maps without requiring an extensive training dataset of object masks, relying instead on coarse video labels indicating object presence. Current state-of-the-art methods either require multiple independent stages of processing that employ motion cues or, in the case of end-to-end trainable networks, lack in segmentation accuracy, in part due to the difficulty of learning segmentation maps from videos with transient object presence. This limits the application of WSVOS for semantic annotation of surgical videos where multiple surgical tools frequently move in and out of the field of view, a problem that is more difficult than typically encountered in WSVOS. This paper introduces Video Spatio-Temporal Disentanglement Networks (VDST-Net), a framework to disentangle spatiotemporal information using semi-decoupled knowledge distillation to predict high-quality class activation maps (CAMs). A teacher network designed to resolve temporal conflicts when specifics about object location and timing in the video are not provided works with a student network that integrates information over time by leveraging temporal dependencies. We demonstrate the efficacy of our framework on a public reference dataset and on a more challenging surgical video dataset where objects are, on average, present in less than 60\% of annotated frames. Our method outperforms state-of-the-art techniques and generates superior segmentation masks under video-level weak supervision.

arxiv情報

著者 Guiqiu Liao,Matjaz Jogan,Sai Koushik,Eric Eaton,Daniel A. Hashimoto
発行日 2024-07-22 16:52:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク