Structure-preserving Image Translation for Depth Estimation in Colonoscopy Video

要約

結腸内視鏡ビデオにおける単眼の深度推定は、結腸内視鏡環境の異常な照明特性を克服することを目的としています。
この分野における大きな課題の 1 つは、注釈付きではあるが非現実的な合成データと、注釈は付いていないが現実的な臨床データとの間の領域のギャップです。
このドメインのギャップを埋めるこれまでの試みは、深度推定タスク自体を直接ターゲットにしていました。
変換プロセスを通じて深度ジオメトリを保持するために、構造を保持した合成から実画像への (sim2real) 画像変換 (入力画像の修正バージョンを生成) の一般的なパイプラインを提案します。
これにより、臨床領域への一般化が向上し、教師あり深度推定用の現実的に見える合成画像を大量に生成できるようになります。
また、画像変換プロセスを改善するために、臨床結腸内視鏡検査から厳選されたシーケンスのデータセットも提案します。
さまざまなデータセットに対する下流の深度推定の実行を通じて、変換された画像のリアリズムと深度マップの保存が同時に行われることを実証します。

要約(オリジナル)

Monocular depth estimation in colonoscopy video aims to overcome the unusual lighting properties of the colonoscopic environment. One of the major challenges in this area is the domain gap between annotated but unrealistic synthetic data and unannotated but realistic clinical data. Previous attempts to bridge this domain gap directly target the depth estimation task itself. We propose a general pipeline of structure-preserving synthetic-to-real (sim2real) image translation (producing a modified version of the input image) to retain depth geometry through the translation process. This allows us to generate large quantities of realistic-looking synthetic images for supervised depth estimation with improved generalization to the clinical domain. We also propose a dataset of hand-picked sequences from clinical colonoscopies to improve the image translation process. We demonstrate the simultaneous realism of the translated images and preservation of depth maps via the performance of downstream depth estimation on various datasets.

arxiv情報

著者 Shuxian Wang,Akshay Paruchuri,Zhaoxi Zhang,Sarah McGill,Roni Sengupta
発行日 2024-08-19 17:02:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク