SSTFB: Leveraging self-supervised pretext learning and temporal self-attention with feature branching for real-time video polyp segmentation

要約

ポリープは早期がんの指標であるため、ポリープの発生とその切除を評価することが重要です。
これらは、ビデオ フレームのストリームを生成する結腸内視鏡検査のスクリーニング手順を通じて観察されます。
自然なビデオ スクリーニング手順でポリープをセグメント化することには、画像アーチファクト、モーション ブラー、浮遊破片の共存など、いくつかの課題があります。
既存のポリープ セグメンテーション アルゴリズムのほとんどは、現実世界の結腸内視鏡検査を表すものではない厳選された静止画像データセットに基づいて開発されています。
ビデオ データではパフォーマンスが低下することがよくあります。
補助タスクとして自己教師あり学習を実行するビデオ ポリープ セグメンテーション手法と、表現学習を改善するための時空間自己注意メカニズムを提案します。
当社のエンドツーエンド構成と損失の共同最適化により、ネットワークはビデオ内のより識別可能なコンテキスト上の特徴を学習できるようになります。
私たちの実験結果は、いくつかの最先端 (SOTA) 手法に対する改善を示しています。
私たちのアブレーション研究では、提案された統合エンドツーエンド トレーニングの選択により、最近提案された方法 PNS+ および Polyp と比較して、Dice 類似性係数と和集合上の交差の両方でネットワーク精度が 3% 以上および 10% 近く向上することも確認されています。
-PVT、それぞれ。
これまでに見たことのないビデオデータに関する結果は、提案された方法が一般化されていることを示しています。

要約(オリジナル)

Polyps are early cancer indicators, so assessing occurrences of polyps and their removal is critical. They are observed through a colonoscopy screening procedure that generates a stream of video frames. Segmenting polyps in their natural video screening procedure has several challenges, such as the co-existence of imaging artefacts, motion blur, and floating debris. Most existing polyp segmentation algorithms are developed on curated still image datasets that do not represent real-world colonoscopy. Their performance often degrades on video data. We propose a video polyp segmentation method that performs self-supervised learning as an auxiliary task and a spatial-temporal self-attention mechanism for improved representation learning. Our end-to-end configuration and joint optimisation of losses enable the network to learn more discriminative contextual features in videos. Our experimental results demonstrate an improvement with respect to several state-of-the-art (SOTA) methods. Our ablation study also confirms that the choice of the proposed joint end-to-end training improves network accuracy by over 3% and nearly 10% on both the Dice similarity coefficient and intersection-over-union compared to the recently proposed method PNS+ and Polyp-PVT, respectively. Results on previously unseen video data indicate that the proposed method generalises.

arxiv情報

著者 Ziang Xu,Jens Rittscher,Sharib Ali
発行日 2024-06-14 17:33:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク