PolypSegTrack: Unified Foundation Model for Colonoscopy Video Analysis

要約

大腸内視鏡検査中のポリープの早期発見、正確なセグメンテーション、分類、追跡は、結腸直腸癌の予防に重要です。
大腸内視鏡ビデオを分析するための多くの既存のディープラーニングベースの方法は、タスク固有の微調整、追跡能力の欠如、またはドメイン固有のプリトレーニングに依存する必要があります。
このホワイトペーパーでは、大腸内視鏡ビデオでポリープの検出、セグメンテーション、分類、および教師なし追跡に共同で対処する新しい基礎モデルである\ textit {polypsegtrack}を紹介します。
私たちのアプローチは、新しい条件付きマスクの損失を活用し、ピクセルレベルのセグメンテーションマスクまたは境界ボックスアノテーションのいずれかでデータセット間の柔軟なトレーニングを可能にし、タスク固有の微調整をバイパスすることができます。
当社の教師なしトラッキングモジュールは、ヒューリスティックに依存することなく、オブジェクトクエリを使用してフレーム間でポリープインスタンスを確実に関連付けます。
私たちは、自然な画像で事前に訓練されていない訓練を受けている堅牢なVision Foundationモデルのバックボーンを活用し、それによりドメイン固有のプリトレーニングの必要性を削除します。
複数のポリープベンチマークでの広範な実験は、この方法が、既存の最先端のアプローチを検出、セグメンテーション、分類、追跡において大幅に上回ることを示しています。

要約(オリジナル)

Early detection, accurate segmentation, classification and tracking of polyps during colonoscopy are critical for preventing colorectal cancer. Many existing deep-learning-based methods for analyzing colonoscopic videos either require task-specific fine-tuning, lack tracking capabilities, or rely on domain-specific pre-training. In this paper, we introduce \textit{PolypSegTrack}, a novel foundation model that jointly addresses polyp detection, segmentation, classification and unsupervised tracking in colonoscopic videos. Our approach leverages a novel conditional mask loss, enabling flexible training across datasets with either pixel-level segmentation masks or bounding box annotations, allowing us to bypass task-specific fine-tuning. Our unsupervised tracking module reliably associates polyp instances across frames using object queries, without relying on any heuristics. We leverage a robust vision foundation model backbone that is pre-trained unsupervisedly on natural images, thereby removing the need for domain-specific pre-training. Extensive experiments on multiple polyp benchmarks demonstrate that our method significantly outperforms existing state-of-the-art approaches in detection, segmentation, classification, and tracking.

arxiv情報

著者 Anwesa Choudhuri,Zhongpai Gao,Meng Zheng,Benjamin Planche,Terrence Chen,Ziyan Wu
発行日 2025-03-31 14:00:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク