A Temporal Convolutional Network-Based Approach and a Benchmark Dataset for Colonoscopy Video Temporal Segmentation

要約

大腸内視鏡検査のコンピューター支援検出および診断システムの最近の進歩に続いて、大腸内視鏡検査手順の自動報告は、臨床診療にさらに革命を起こすように設定されています。
これらのシステムの開発において重要でありながら未定の側面は、フルプロセッド大腸内視鏡ビデオを解剖学的セクションと手続き段階に自律的にセグメント化できるコンピュータービジョンモデルの作成です。
この作業では、このタスクの最初のオープンアクセスデータセットを作成し、競争モデルに対してベンチマークされた最先端のアプローチを提案することを目指しています。
60の完全な大腸内視鏡ビデオからの270万フレームで構成される公開されている本物のデータセットに注釈を付け、解剖学的場所のフレームレベルのラベルと、9つのカテゴリにわたって大腸内視鏡検査段階を記録しました。
次に、大腸内視鏡検査ビデオの時間的セグメンテーションのために長い時間依存性を効率的にキャプチャするように設計されたカスタム時間的畳み込みブロックを採用する学習ベースのアーキテクチャであるColontcnを提示します。
また、目に見えないマルチセンターデータに関するモデル評価を含む、このベンチマークのデュアルK倍交差検証評価プロトコルを提案します。
提案されている2つのK-fold交差検証設定を使用して、競争モデルを上回ります。
アブレーション研究を報告して、このタスクの課題に関する洞察を提供し、カスタム時間的畳み込みブロックの利点を強調し、学習を強化し、モデルの効率を向上させます。
提案されているオープンアクセスベンチマークとColontCNアプローチは、大腸内視鏡検査手順の時間的セグメンテーションの重要な進歩を表しており、この臨床的ニーズに対処するためのさらなるオープンアクセス研究を促進していると考えています。

要約(オリジナル)

Following recent advancements in computer-aided detection and diagnosis systems for colonoscopy, the automated reporting of colonoscopy procedures is set to further revolutionize clinical practice. A crucial yet underexplored aspect in the development of these systems is the creation of computer vision models capable of autonomously segmenting full-procedure colonoscopy videos into anatomical sections and procedural phases. In this work, we aim to create the first open-access dataset for this task and propose a state-of-the-art approach, benchmarked against competitive models. We annotated the publicly available REAL-Colon dataset, consisting of 2.7 million frames from 60 complete colonoscopy videos, with frame-level labels for anatomical locations and colonoscopy phases across nine categories. We then present ColonTCN, a learning-based architecture that employs custom temporal convolutional blocks designed to efficiently capture long temporal dependencies for the temporal segmentation of colonoscopy videos. We also propose a dual k-fold cross-validation evaluation protocol for this benchmark, which includes model assessment on unseen, multi-center data.ColonTCN achieves state-of-the-art performance in classification accuracy while maintaining a low parameter count when evaluated using the two proposed k-fold cross-validation settings, outperforming competitive models. We report ablation studies to provide insights into the challenges of this task and highlight the benefits of the custom temporal convolutional blocks, which enhance learning and improve model efficiency. We believe that the proposed open-access benchmark and the ColonTCN approach represent a significant advancement in the temporal segmentation of colonoscopy procedures, fostering further open-access research to address this clinical need.

arxiv情報

著者 Carlo Biffi,Giorgio Roffo,Pietro Salvagnini,Andrea Cherubini
発行日 2025-02-05 18:21:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク