Exploring Semantic Consistency in Unpaired Image Translation to Generate Data for Surgical Applications

要約

外科用コンピュータ ビジョン アプリケーションでは、データ プライバシーの問題と専門家の注釈の必要性により、ラベル付きトレーニング データを取得するのが困難です。
合成画像を現実的な領域に変換することにより、大規模な注釈付きデータセットを自動的に生成する、ペアのない画像間変換技術が研究されてきました。
ただし、主にドメインの意味的特性に分布の不一致がある場合、入力画像と翻訳された画像の間の構造と意味的一貫性を維持することは、重大な課題となります。
この研究では、意味の一貫性に明確に焦点を当て、外科用途で適切なデータを生成するための不対画像変換方法を実証的に研究しています。
私たちは、2 つの困難な手術データセットと下流のセマンティック セグメンテーション タスクに基づいて、さまざまな最先端の画像変換モデルを広範囲に評価しています。
構造類似性の損失と対照学習を単純に組み合わせると、最も有望な結果が得られることがわかりました。
このアプローチで生成されたデータはより高いセマンティック一貫性をもたらし、トレーニング データとしてより効果的に使用できることを定量的に示します。

要約(オリジナル)

In surgical computer vision applications, obtaining labeled training data is challenging due to data-privacy concerns and the need for expert annotation. Unpaired image-to-image translation techniques have been explored to automatically generate large annotated datasets by translating synthetic images to the realistic domain. However, preserving the structure and semantic consistency between the input and translated images presents significant challenges, mainly when there is a distributional mismatch in the semantic characteristics of the domains. This study empirically investigates unpaired image translation methods for generating suitable data in surgical applications, explicitly focusing on semantic consistency. We extensively evaluate various state-of-the-art image translation models on two challenging surgical datasets and downstream semantic segmentation tasks. We find that a simple combination of structural-similarity loss and contrastive learning yields the most promising results. Quantitatively, we show that the data generated with this approach yields higher semantic consistency and can be used more effectively as training data.

arxiv情報

著者 Danush Kumar Venkatesh,Dominik Rivior,Micha Pfeiffer,Fiona Kolbinger,Marius Distler,Jürgen Weitz,Stefanie Speidel
発行日 2023-09-06 14:43:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク