Colonoscopy 3D Video Dataset with Paired Depth from 2D-3D Registration

要約

スクリーニング結腸内視鏡検査は、深度推定、表面再構築、欠損領域検出など、いくつかの 3D コンピュータ ビジョン技術の重要な臨床応用です。
ただし、実際の結腸内視鏡検査ビデオにおけるこれらの技術の開発、評価、比較は、グラウンド トゥルース データの取得が難しいため、大部分が定性的なままです。
この研究では、結腸内視鏡検査におけるコンピューター ビジョン手法のベンチマーク用に、高解像度の臨床結腸鏡で取得した結腸鏡 3D ビデオ データセット (C3VD) と高忠実度の結腸モデルを紹介します。
光学ビデオ シーケンスを既知の 3D モデルのグラウンド トゥルース レンダリング ビューと位置合わせする、新しいマルチモーダル 2D-3D 位置合わせ技術を紹介します。
さまざまなモダリティは、敵対的生成ネットワークを使用して光学画像を深度マップに変換し、進化的オプティマイザーを使用してエッジ特徴を調整することによって登録されます。
この位置合わせ方法では、エラーのないグラウンド トゥルースが利用可能なシミュレーション実験で、平均平行移動誤差 0.321 ミリメートルと平均回転誤差 0.159 度を達成しました。
この方法ではビデオ情報も活用し、単一フレームの登録と比較して、位置合わせ精度が平行移動で 55.6%、回転で 60.4% 向上しました。
22 の短いビデオ シーケンスが登録され、グラウンド トゥルース深度、表面法線、オプティカル フロー、オクルージョン、6 自由度のポーズ、カバレッジ マップ、および 3D モデルのペアを含む合計 10,015 のフレームが生成されました。
このデータセットには、消化器科医がグラウンド トゥルース ポーズと 3D 表面モデルのペアを使用して取得したスクリーニング ビデオも含まれています。
データセットと登録ソース コードは durr.jhu.edu/C3VD で入手できます。

要約(オリジナル)

Screening colonoscopy is an important clinical application for several 3D computer vision techniques, including depth estimation, surface reconstruction, and missing region detection. However, the development, evaluation, and comparison of these techniques in real colonoscopy videos remain largely qualitative due to the difficulty of acquiring ground truth data. In this work, we present a Colonoscopy 3D Video Dataset (C3VD) acquired with a high definition clinical colonoscope and high-fidelity colon models for benchmarking computer vision methods in colonoscopy. We introduce a novel multimodal 2D-3D registration technique to register optical video sequences with ground truth rendered views of a known 3D model. The different modalities are registered by transforming optical images to depth maps with a Generative Adversarial Network and aligning edge features with an evolutionary optimizer. This registration method achieves an average translation error of 0.321 millimeters and an average rotation error of 0.159 degrees in simulation experiments where error-free ground truth is available. The method also leverages video information, improving registration accuracy by 55.6% for translation and 60.4% for rotation compared to single frame registration. 22 short video sequences were registered to generate 10,015 total frames with paired ground truth depth, surface normals, optical flow, occlusion, six degree-of-freedom pose, coverage maps, and 3D models. The dataset also includes screening videos acquired by a gastroenterologist with paired ground truth pose and 3D surface models. The dataset and registration source code are available at durr.jhu.edu/C3VD.

arxiv情報

著者 Taylor L. Bobrow,Mayank Golhar,Rohan Vijayan,Venkata S. Akshintala,Juan R. Garcia,Nicholas J. Durr
発行日 2023-09-05 17:51:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク