Occlusion-Aware Self-Supervised Monocular Depth Estimation for Weak-Texture Endoscopic Images

要約

内視鏡シーンに合わせて調整された自己監督の単眼深度推定ネットワークを提案し、単眼画像から胃腸管内の深さを推測することを目指しています。
既存の方法は、正確ですが、通常、一貫した照明を想定しています。これは、GIの運動性によって引き起こされる動的な照明と閉塞のためにしばしば違反されます。
これらの変動は、誤った幾何学的解釈と信頼できない自己監視信号、深さの再構成の品質を分解することにつながります。
これに対処するために、咬合を意識した自己監視フレームワークを紹介します。
まず、視点依存の閉塞シナリオをシミュレートすることにより、擬似ラベルを生成するデータ増強のための閉塞マスクを組み込みます。
これにより、部分的な可視性の下で堅牢な深さの特徴を学習するモデルの能力が向上します。
第二に、非陰性マトリックス因数分解、テクスチャ不足領域で擬似適応を生成するための畳み込み活性化のクラスター化によって導かれたセマンティックセグメンテーションを活用し、それによりセグメンテーションの精度を改善し、照明の変化による情報の損失を軽減します。
怖いデータセットでの実験結果は、私たちの方法が自己教師の深さ推定で最先端のパフォーマンスを達成することを示しています。
さらに、Endo-SlamおよびServ-CTデータセットの評価は、多様な内視鏡環境全体で強力な一般化を示しています。

要約(オリジナル)

We propose a self-supervised monocular depth estimation network tailored for endoscopic scenes, aiming to infer depth within the gastrointestinal tract from monocular images. Existing methods, though accurate, typically assume consistent illumination, which is often violated due to dynamic lighting and occlusions caused by GI motility. These variations lead to incorrect geometric interpretations and unreliable self-supervised signals, degrading depth reconstruction quality. To address this, we introduce an occlusion-aware self-supervised framework. First, we incorporate an occlusion mask for data augmentation, generating pseudo-labels by simulating viewpoint-dependent occlusion scenarios. This enhances the model’s ability to learn robust depth features under partial visibility. Second, we leverage semantic segmentation guided by non-negative matrix factorization, clustering convolutional activations to generate pseudo-labels in texture-deprived regions, thereby improving segmentation accuracy and mitigating information loss from lighting changes. Experimental results on the SCARED dataset show that our method achieves state-of-the-art performance in self-supervised depth estimation. Additionally, evaluations on the Endo-SLAM and SERV-CT datasets demonstrate strong generalization across diverse endoscopic environments.

arxiv情報

著者 Zebo Huang,Yinghui Wang
発行日 2025-04-24 14:12:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク