Colonoscopy 3D Video Dataset with Paired Depth from 2D-3D Registration

要約

大腸内視鏡検査のスクリーニングは、深度推定、表面再構成、欠落領域検出など、いくつかの 3D コンピュータ ビジョン技術にとって重要な臨床応用です。
ただし、実際の大腸内視鏡検査ビデオでのこれらの技術の開発、評価、および比較は、グラウンド トゥルース データの取得が難しいため、大部分が定性的なままです。
この作業では、大腸内視鏡検査におけるコンピューター ビジョン手法のベンチマークを行うために、高解像度の臨床大腸内視鏡と忠実度の高い大腸モデルを使用して取得した大腸内視鏡検査 3D ビデオ データセット (C3VD) を紹介します。
光学ビデオ シーケンスを既知の 3D モデルのグラウンド トゥルース レンダリング ビューに登録する、新しいマルチモーダル 2D-3D 登録技術を紹介します。
さまざまなモダリティは、Generative Adversarial Network を使用して光学画像を深度マップに変換し、エッジ機能を進化的オプティマイザーに合わせることによって登録されます。
この登録方法は、エラーのないグラウンド トゥルースが利用可能なシミュレーション実験で、0.321 mm の平均並進誤差と 0.159 度の平均回転誤差を達成します。
この方法はビデオ情報も活用し、単一フレームの登録と比較して、平行移動で 55.6%、回転で 60.4% 登録精度を向上させます。
22 の短いビデオ シーケンスが登録され、ペアのグラウンド トゥルース深度、サーフェス法線、オプティカル フロー、オクルージョン、6 自由度ポーズ、カバレッジ マップ、および 3D モデルを含む合計 10,015 フレームが生成されました。
このデータセットには、胃腸病専門医が取得した、グラウンド トゥルース ポーズと 3D サーフェス モデルのペアを使用したスクリーニング ビデオも含まれています。
データセットと登録ソース コードは durr.jhu.edu/C3VD で入手できます。

要約(オリジナル)

Screening colonoscopy is an important clinical application for several 3D computer vision techniques, including depth estimation, surface reconstruction, and missing region detection. However, the development, evaluation, and comparison of these techniques in real colonoscopy videos remain largely qualitative due to the difficulty of acquiring ground truth data. In this work, we present a Colonoscopy 3D Video Dataset (C3VD) acquired with a high definition clinical colonoscope and high-fidelity colon models for benchmarking computer vision methods in colonoscopy. We introduce a novel multimodal 2D-3D registration technique to register optical video sequences with ground truth rendered views of a known 3D model. The different modalities are registered by transforming optical images to depth maps with a Generative Adversarial Network and aligning edge features with an evolutionary optimizer. This registration method achieves an average translation error of 0.321 millimeters and an average rotation error of 0.159 degrees in simulation experiments where error-free ground truth is available. The method also leverages video information, improving registration accuracy by 55.6% for translation and 60.4% for rotation compared to single frame registration. 22 short video sequences were registered to generate 10,015 total frames with paired ground truth depth, surface normals, optical flow, occlusion, six degree-of-freedom pose, coverage maps, and 3D models. The dataset also includes screening videos acquired by a gastroenterologist with paired ground truth pose and 3D surface models. The dataset and registration source code are available at durr.jhu.edu/C3VD.

arxiv情報

著者 Taylor L. Bobrow,Mayank Golhar,Rohan Vijayan,Venkata S. Akshintala,Juan R. Garcia,Nicholas J. Durr
発行日 2022-11-23 15:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク