Surgical Text-to-Image Generation

要約

研究開発のための手術データの取得は、高いアノテーションコストと実際的および倫理的な制約によって大幅に妨げられています。
合成的に生成された画像を利用することは、価値のある代替手段となる可能性があります。
この研究では、手術動作の 3 つの要素 (器具、動詞、ターゲット) の注釈が付けられた手術画像を提供する CholecT50 データセットを活用して、手術領域にテキストから画像への生成モデルを適応させることについて詳細な分析を実施します。
私たちはさまざまな言語モデルを調査し、T5 がトリプレットベースのテキスト入力に基づいて手術行為を区別するためのより明確な機能を提供していることを発見しました。
私たちの分析は、長いキャプションとトリプレットベースのキャプション間の強力な整合性を示し、トリプレットベースのラベルの使用をサポートしています。
私たちは、追加の入力信号なしでトリプレットベースのキャプション上でテキストから画像へのモデルをトレーニングする際の課題に、トリプレットのテキスト埋め込みが潜在空間で機器中心であることを明らかにし、次に、インストゥルメントベースのクラスバランシング技術を設計して、潜在空間におけるインストゥルメント中心であることを明らかにします。
手術データの不均衡と歪みを解消し、トレーニングの収束を改善します。
拡散ベースの生成モデルである Imagen を拡張して、トリプレットベースのテキスト プロンプトからフォトリアリスティックでアクティビティに合わせた手術画像を生成する Surgical Imagen を開発しました。
私たちは、人間の専門家による調査や、FID や CLIP スコアなどの自動化された手法を含む、さまざまな指標を使用してモデルを評価します。
私たちは、品質、調整、推論、知識、堅牢性などの主要な側面でモデルのパフォーマンスを評価し、実際のデータ収集に代わる現実的な代替手段を提供する際のアプローチの有効性を実証します。

要約(オリジナル)

Acquiring surgical data for research and development is significantly hindered by high annotation costs and practical and ethical constraints. Utilizing synthetically generated images could offer a valuable alternative. In this work, we conduct an in-depth analysis on adapting text-to-image generative models for the surgical domain, leveraging the CholecT50 dataset, which provides surgical images annotated with surgical action triplets (instrument, verb, target). We investigate various language models and find T5 to offer more distinct features for differentiating surgical actions based on triplet-based textual inputs. Our analysis demonstrates strong alignment between long and triplet-based captions, supporting the use of triplet-based labels. We address the challenges in training text-to-image models on triplet-based captions without additional input signals by uncovering that triplet text embeddings are instrument-centric in the latent space and then, by designing an instrument-based class balancing technique to counteract the imbalance and skewness in the surgical data, improving training convergence. Extending Imagen, a diffusion-based generative model, we develop Surgical Imagen to generate photorealistic and activity-aligned surgical images from triplet-based textual prompts. We evaluate our model using diverse metrics, including human expert surveys and automated methods like FID and CLIP scores. We assess the model performance on key aspects: quality, alignment, reasoning, knowledge, and robustness, demonstrating the effectiveness of our approach in providing a realistic alternative to real data collection.

arxiv情報

著者 Chinedu Innocent Nwoye,Rupak Bose,Kareem Elgohary,Lorenzo Arboit,Giorgio Carlino,Joël L. Lavanchy,Pietro Mascagni,Nicolas Padoy
発行日 2024-07-12 12:49:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク