Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene Segmentation

要約

自動手術シーンセグメンテーションは、現代の手術室で認知インテリジェンスを促進するための基本です。
以前の作業は、ローカルコンテキストのみを使用する従来の集約モジュール(拡張畳み込み、畳み込みLSTMなど)に依存しています。
この論文では、グローバルなコンテキストを段階的にキャプチャすることにより、セグメンテーションのパフォーマンスを向上させるために、ビデオ内およびビデオ間の補完的な関係を調査する新しいフレームワークSTswinCLを提案します。
最初に、隣接するピクセルと前のフレームからのより豊富な空間的および時間的手がかりを含むビデオ内関係をキャプチャするための階層トランスフォーマーを開発します。
これらの2つの手がかりを各ピクセル埋め込みに効率的に集約するために、共同時空間ウィンドウシフトスキームが提案されています。
次に、グローバルな埋め込み空間を適切に構成する、ピクセル間の対照学習を介してビデオ間の関係を調査します。
マルチソースコントラストトレーニングの目的は、データ全体のグローバルな特性を学習するために重要なグラウンドトゥルースガイダンスを使用して、ビデオ全体のピクセル埋め込みをグループ化するために開発されました。
EndoVis18チャレンジとCaDISデータセットを含む、2つの公開手術ビデオベンチマークでアプローチを広範囲に検証します。
実験結果は、以前の最先端のアプローチを一貫して上回っている、私たちの方法の有望なパフォーマンスを示しています。
コードはhttps://github.com/YuemingJin/STswinCLで入手できます。

要約(オリジナル)

Automatic surgical scene segmentation is fundamental for facilitating cognitive intelligence in the modern operating theatre. Previous works rely on conventional aggregation modules (e.g., dilated convolution, convolutional LSTM), which only make use of the local context. In this paper, we propose a novel framework STswinCL that explores the complementary intra- and inter-video relations to boost segmentation performance, by progressively capturing the global context. We firstly develop a hierarchy Transformer to capture intra-video relation that includes richer spatial and temporal cues from neighbor pixels and previous frames. A joint space-time window shift scheme is proposed to efficiently aggregate these two cues into each pixel embedding. Then, we explore inter-video relation via pixel-to-pixel contrastive learning, which well structures the global embedding space. A multi-source contrast training objective is developed to group the pixel embeddings across videos with the ground-truth guidance, which is crucial for learning the global property of the whole data. We extensively validate our approach on two public surgical video benchmarks, including EndoVis18 Challenge and CaDIS dataset. Experimental results demonstrate the promising performance of our method, which consistently exceeds previous state-of-the-art approaches. Code is available at https://github.com/YuemingJin/STswinCL.

arxiv情報

著者 Yueming Jin,Yang Yu,Cheng Chen,Zixu Zhao,Pheng-Ann Heng,Danail Stoyanov
発行日 2022-06-24 16:48:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク