Rapid and robust endoscopic content area estimation: A lean GPU-based pipeline and curated benchmark dataset

要約

内視鏡コンテンツ領域とは、ほとんどの内視鏡映像に存在する、暗くて有益でない境界領域で囲まれた有益な領域を指します。
コンテンツ領域の推定は、内視鏡画像処理およびコンピューター ビジョン パイプラインの一般的なタスクです。
問題は単純に見えますが、いくつかの要因により、信頼性の高いリアルタイム推定が驚くほど困難になっています。
このトピックに対する厳密な調査の欠如と、このタスクのための共通のベンチマーク データセットの欠如は、この分野で長期にわたる問題となっています。
この論文では、エッジ検出とサークル フィッティングを組み合わせた無駄のない GPU ベースの計算パイプラインの 2 つのバリアントを提案します。
2 つの亜種は、コンテンツ エリアのエッジ ポイント候補を抽出するために、それぞれ手作りの特徴と学習した特徴に依存する点で異なります。
また、さまざまな外科的適応症にわたって、手動で注釈が付けられ、疑似ラベルが付けられたコンテンツ領域の初めてのデータセットも提示します。
さらなる開発を促進するために、精選されたデータセットと両方のアルゴリズムの実装が公開されました (https://doi.org/10.7303/syn32148000、https://github.com/charliebudd/torch-content-area)。
提案されたアルゴリズムを最先端の U-Net ベースのアプローチと比較し、精度 (ハウスドルフ距離: 6.3 ピクセル対 118.1 ピクセル) と計算時間 (フレームあたりの平均実行時間: 0.13 ミリ秒) の両方の点で大幅な改善を示します。
対 11.2 ミリ秒)。

要約(オリジナル)

Endoscopic content area refers to the informative area enclosed by the dark, non-informative, border regions present in most endoscopic footage. The estimation of the content area is a common task in endoscopic image processing and computer vision pipelines. Despite the apparent simplicity of the problem, several factors make reliable real-time estimation surprisingly challenging. The lack of rigorous investigation into the topic combined with the lack of a common benchmark dataset for this task has been a long-lasting issue in the field. In this paper, we propose two variants of a lean GPU-based computational pipeline combining edge detection and circle fitting. The two variants differ by relying on handcrafted features, and learned features respectively to extract content area edge point candidates. We also present a first-of-its-kind dataset of manually annotated and pseudo-labelled content areas across a range of surgical indications. To encourage further developments, the curated dataset, and an implementation of both algorithms, has been made public (https://doi.org/10.7303/syn32148000, https://github.com/charliebudd/torch-content-area). We compare our proposed algorithm with a state-of-the-art U-Net-based approach and demonstrate significant improvement in terms of both accuracy (Hausdorff distance: 6.3 px versus 118.1 px) and computational time (Average runtime per frame: 0.13 ms versus 11.2 ms).

arxiv情報

著者 Charlie Budd,Luis C. Garcia-Peraza-Herrera,Martin Huber,Sebastien Ourselin,Tom Vercauteren
発行日 2022-10-26 15:10:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク