Multi-task learning with cross-task consistency for improved depth estimation in colonoscopy

要約

結腸内視鏡検査スクリーニングは、潰瘍や癌性ポリープなどの結腸と直腸の異常を評価するための最も一般的な手順です。
異常な粘膜領域の測定とその 3D 再構成は、調査領域を定量化し、疾患の負担を客観的に評価するのに役立ちます。
ただし、これらの器官の複雑なトポロジーとさまざまな物理的条件 (たとえば、照明、均一なテクスチャ、カメラからの距離 (深度) を推定する画像モダリティ) は非常に困難です。
さらに、ほとんどの結腸鏡ビデオ取得は単眼で行われるため、深さの推定は重要な問題になります。
深度推定のためのコンピューター ビジョンの方法は、自然シーンのデータセットに対して提案され進歩していますが、結腸内視鏡検査データセットに対してこれらの技術の有効性は広く定量化されていません。
結腸粘膜にはあまり顕著ではない低テクスチャ領域がいくつかあるため、補助タスクから表現を学習することで顕著な特徴の抽出が向上し、正確なカメラ深度の推定が可能になります。
この研究では、共有エンコーダと 2 つのデコーダ、つまり表面法線デコーダと深さ推定デコーダを使用した新しいマルチタスク学習 (MTL) アプローチを開発することを提案します。
当社の深度推定ツールには、グローバルなコンテキスト認識を強化するための注意メカニズムが組み込まれています。
表面法線予測を活用して、幾何学的特徴の抽出を改善します。
また、幾何学的に関連する 2 つのタスク (表面法線とカメラ深度) 間にクロスタスクの一貫性損失を適用します。
最も正確なベースラインの最先端の BTS アプローチと比較して、相対誤差が 14.17% 向上し、$\delta_{1}$ 精度が 10.4% 向上したことを実証しました。
すべての実験は、最近リリースされた C3VD データセットで行われます。
したがって、私たちは最先端の手法の最初のベンチマークを提供します。

要約(オリジナル)

Colonoscopy screening is the gold standard procedure for assessing abnormalities in the colon and rectum, such as ulcers and cancerous polyps. Measuring the abnormal mucosal area and its 3D reconstruction can help quantify the surveyed area and objectively evaluate disease burden. However, due to the complex topology of these organs and variable physical conditions, for example, lighting, large homogeneous texture, and image modality estimating distance from the camera aka depth) is highly challenging. Moreover, most colonoscopic video acquisition is monocular, making the depth estimation a non-trivial problem. While methods in computer vision for depth estimation have been proposed and advanced on natural scene datasets, the efficacy of these techniques has not been widely quantified on colonoscopy datasets. As the colonic mucosa has several low-texture regions that are not well pronounced, learning representations from an auxiliary task can improve salient feature extraction, allowing estimation of accurate camera depths. In this work, we propose to develop a novel multi-task learning (MTL) approach with a shared encoder and two decoders, namely a surface normal decoder and a depth estimator decoder. Our depth estimator incorporates attention mechanisms to enhance global context awareness. We leverage the surface normal prediction to improve geometric feature extraction. Also, we apply a cross-task consistency loss among the two geometrically related tasks, surface normal and camera depth. We demonstrate an improvement of 14.17% on relative error and 10.4% improvement on $\delta_{1}$ accuracy over the most accurate baseline state-of-the-art BTS approach. All experiments are conducted on a recently released C3VD dataset; thus, we provide a first benchmark of state-of-the-art methods.

arxiv情報

著者 Pedro Esteban Chavarrias Solano,Andrew Bulpitt,Venkataraman Subramanian,Sharib Ali
発行日 2023-11-30 16:13:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク