SoftEnNet: Symbiotic Monocular Depth Estimation and Lumen Segmentation for Colonoscopy Endorobots

要約

結腸直腸がんは、世界中で 3 番目に多いがんによる死亡原因です。
光学式結腸内視鏡検査は、結腸直腸癌を検出するためのゴールド スタンダードです。
ただし、ポリープの約 25% は処置中に見逃されます。
ビジョンベースの自律エンドロボットは、結腸粘膜の体系的で完全なスクリーニングを通じて、結腸内視鏡検査の手順を大幅に改善できます。
必要な信頼性の高いロボット ナビゲーションには、環境の 3 次元の理解と、自律的なタスクをサポートするためのルーメン トラッキングが必要です。
深いネットワークのアンサンブルを使用して、高密度の深度と管腔のセグメンテーションを同時に予測する新しいマルチタスク モデルを提案します。
深度推定サブネットワークは、ビュー合成によって導かれる自己教師付きの方法でトレーニングされます。
管腔セグメンテーション サブネットワークは監視されます。
2 つのサブネットワークは、情報交換と相互学習を可能にする経路で相互接続されています。
ルーメンは画像の最も深い視覚空間にあるため、ルーメン セグメンテーションは最も遠い位置での深さの推定に役立ちます。
次に、ルーメン位置が最も遠いシーンの位置を定義するので、推定された深さはルーメン セグメンテーション ネットワークをガイドします。
他の環境とは異なり、ビューの合成は、変形可能な壁、テクスチャのない表面、スペキュラリティ、および広い視野の画像の歪みのために、結腸で失敗することがよくあります。これらはすべて、パイプラインが対処する課題です。
合成データセットの定性分析と、結腸トレーニング モデルと実際の結腸内視鏡ビデオの定量分析を実施しました。
実験は、私たちのモデルが正確なスケール不変の深度マップと大腸内視鏡検査画像からの内腔セグメンテーションをほぼリアルタイムで予測することを示しています。

要約(オリジナル)

Colorectal cancer is the third most common cause of cancer death worldwide. Optical colonoscopy is the gold standard for detecting colorectal cancer; however, about 25 percent of polyps are missed during the procedure. A vision-based autonomous endorobot can improve colonoscopy procedures significantly through systematic, complete screening of the colonic mucosa. The reliable robot navigation needed requires a three-dimensional understanding of the environment and lumen tracking to support autonomous tasks. We propose a novel multi-task model that simultaneously predicts dense depth and lumen segmentation with an ensemble of deep networks. The depth estimation sub-network is trained in a self-supervised fashion guided by view synthesis; the lumen segmentation sub-network is supervised. The two sub-networks are interconnected with pathways that enable information exchange and thereby mutual learning. As the lumen is in the image’s deepest visual space, lumen segmentation helps with the depth estimation at the farthest location. In turn, the estimated depth guides the lumen segmentation network as the lumen location defines the farthest scene location. Unlike other environments, view synthesis often fails in the colon because of the deformable wall, textureless surface, specularities, and wide field of view image distortions, all challenges that our pipeline addresses. We conducted qualitative analysis on a synthetic dataset and quantitative analysis on a colon training model and real colonoscopy videos. The experiments show that our model predicts accurate scale-invariant depth maps and lumen segmentation from colonoscopy images in near real-time.

arxiv情報

著者 Alwyn Mathew,Ludovic Magerand,Emanuele Trucco,Luigi Manfredi
発行日 2023-01-19 16:22:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.CV, eess.IV パーマリンク