EndoDepthL: Lightweight Endoscopic Monocular Depth Estimation with CNN-Transformer


私たちは、畳み込みニューラル ネットワーク (CNN) とトランスフォーマーを統合してマルチスケール深度マップを予測する、EndoDepthL という名前の新しい軽量ソリューションを提案します。
私たちのアプローチには、ネットワーク アーキテクチャの最適化、マルチスケール拡張畳み込み、マルチチャネル アテンション メカニズムの組み込みが含まれます。
内視鏡イメージングにおける単眼深度推定のパフォーマンスをより適切に評価するために、ネットワーク パラメーター サイズ、浮動小数点演算、および 1 秒あたりの推論フレーム数を考慮した新しい複雑さの評価指標を提案します。
提案した手法を包括的に評価し、既存のベースライン ソリューションと比較します。
この結果は、EndoDepthL が軽量な構造で深度推定精度を確保していることを示しています。


In this study, we address the key challenges concerning the accuracy and effectiveness of depth estimation for endoscopic imaging, with a particular emphasis on real-time inference and the impact of light reflections. We propose a novel lightweight solution named EndoDepthL that integrates Convolutional Neural Networks (CNN) and Transformers to predict multi-scale depth maps. Our approach includes optimizing the network architecture, incorporating multi-scale dilated convolution, and a multi-channel attention mechanism. We also introduce a statistical confidence boundary mask to minimize the impact of reflective areas. To better evaluate the performance of monocular depth estimation in endoscopic imaging, we propose a novel complexity evaluation metric that considers network parameter size, floating-point operations, and inference frames per second. We comprehensively evaluate our proposed method and compare it with existing baseline solutions. The results demonstrate that EndoDepthL ensures depth estimation accuracy with a lightweight structure.


著者 Yangke Li
発行日 2023-08-16 17:39:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク