Sim2Real in endoscopy segmentation with a novel structure aware image translation

要約

内視鏡画像における解剖学的ランドマークの自動セグメンテーションは、医師や外科医に診断や治療、医療トレーニングの支援を提供することができる。しかし、一般的に使用される教師あり学習法の学習に必要な注釈を得ることは、特に実画像の場合、面倒で困難な作業である。グランドトゥルースの注釈は合成データでは容易に得られるが、そのようなデータで訓練されたモデルは実データにうまく一般化できないことが多い。生成的アプローチは、現実的なテクスチャを追加することができるが、元のシーンの構造を維持することの難しさに直面する。本研究の主な貢献は、主要なシーンレイアウト情報を維持しながら、シミュレーション内視鏡画像にリアルなテクスチャを付加する、新しい画像変換モデルである。我々のアプローチは、様々な内視鏡検査シナリオにおいてリアルな画像を生成する。これらの画像は、実際のラベル付けされたデータ無しで、困難な最終タスクのモデル学習に効果的に使用できることを実証する。特に、大腸内視鏡画像における襞のセグメンテーションのタスクに対して、我々のアプローチを実証する。襞は解剖学的に重要なランドマークであり、大腸粘膜の一部やポリープの可能性を閉塞する可能性がある。我々のアプローチは、既存の方法よりも、画像スタイル変換後も元の襞の形状と位置を維持したリアルな画像を生成する。我々は、ひだセグメンテーションのための新しいシミュレーションデータセットと、EndoMapper (EM)データセットからの実データの両方で実験を行った。折れ線セグメンテーションのタスクについては、現在公開されているベンチマークがないため、さらなる研究を促進するために、新たに生成したデータとEMのメタデータをすべて公開する。

要約(オリジナル)

Automatic segmentation of anatomical landmarks in endoscopic images can provide assistance to doctors and surgeons for diagnosis, treatments or medical training. However, obtaining the annotations required to train commonly used supervised learning methods is a tedious and difficult task, in particular for real images. While ground truth annotations are easier to obtain for synthetic data, models trained on such data often do not generalize well to real data. Generative approaches can add realistic texture to it, but face difficulties to maintain the structure of the original scene. The main contribution in this work is a novel image translation model that adds realistic texture to simulated endoscopic images while keeping the key scene layout information. Our approach produces realistic images in different endoscopy scenarios. We demonstrate these images can effectively be used to successfully train a model for a challenging end task without any real labeled data. In particular, we demonstrate our approach for the task of fold segmentation in colonoscopy images. Folds are key anatomical landmarks that can occlude parts of the colon mucosa and possible polyps. Our approach generates realistic images maintaining the shape and location of the original folds, after the image-style-translation, better than existing methods. We run experiments both on a novel simulated dataset for fold segmentation, and real data from the EndoMapper (EM) dataset. All our new generated data and new EM metadata is being released to facilitate further research, as no public benchmark is currently available for the task of fold segmentation.

arxiv情報

著者 Clara Tomasini,Luis Riazuelo,Ana C. Murillo
発行日 2025-05-05 13:56:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, I.2.10 パーマリンク