Surgical Text-to-Image Generation

要約

研究開発のための手術データの取得は、高いアノテーションコストと実際的および倫理的な制約によって大幅に妨げられています。
合成的に生成された画像を利用することは、価値のある代替手段となる可能性があります。
この研究では、CholecT50 データセットを使用して、手術領域にテキストから画像への生成モデルを適応させることを検討します。このデータセットは、動作の 3 つの要素 (器具、動詞、ターゲット) で注釈が付けられた手術画像を提供します。
私たちはいくつかの言語モデルを調査し、T5 がトリプレット ベースのテキスト入力での手術操作を区別し、長いキャプションとトリプレット ベースのキャプション間のより強力な調整を示すためのより明確な機能を提供することを発見しました。
追加の入力や監視信号を使用せずにトリプレットベースのキャプションのみでテキストから画像へのモデルをトレーニングする際の課題に対処するために、トリプレットのテキスト埋め込みが潜在空間で機器中心であることを発見しました。
この洞察を活用して、データの不均衡と歪みを解消し、トレーニングの収束を向上させるための機器ベースのクラス バランシング手法を設計します。
拡散ベースの生成モデルである Imagen を拡張して、トリプレットベースのテキスト プロンプトからフォトリアリスティックでアクティビティに合わせた手術画像を生成する Surgical Imagen を開発しました。
品質、整合性、推論、知識に基づいてモデルを評価し、それぞれ 3.7% と 26.8% の FID スコアと CLIP スコアを達成しました。
専門家による調査では、参加者が生成されたサンプルの現実的な特徴に非常に悩まされていることが示されており、実際のデータ収集に代わる実用的な代替手段としての Surgical Imagen の有効性が実証されています。

要約(オリジナル)

Acquiring surgical data for research and development is significantly hindered by high annotation costs and practical and ethical constraints. Utilizing synthetically generated images could offer a valuable alternative. In this work, we explore adapting text-to-image generative models for the surgical domain using the CholecT50 dataset, which provides surgical images annotated with action triplets (instrument, verb, target). We investigate several language models and find T5 to offer more distinct features for differentiating surgical actions on triplet-based textual inputs, and showcasing stronger alignment between long and triplet-based captions. To address challenges in training text-to-image models solely on triplet-based captions without additional inputs and supervisory signals, we discover that triplet text embeddings are instrument-centric in the latent space. Leveraging this insight, we design an instrument-based class balancing technique to counteract data imbalance and skewness, improving training convergence. Extending Imagen, a diffusion-based generative model, we develop Surgical Imagen to generate photorealistic and activity-aligned surgical images from triplet-based textual prompts. We assess the model on quality, alignment, reasoning, and knowledge, achieving FID and CLIP scores of 3.7 and 26.8% respectively. Human expert survey shows that participants were highly challenged by the realistic characteristics of the generated samples, demonstrating Surgical Imagen’s effectiveness as a practical alternative to real data collection.

arxiv情報

著者 Chinedu Innocent Nwoye,Rupak Bose,Kareem Elgohary,Lorenzo Arboit,Giorgio Carlino,Joël L. Lavanchy,Pietro Mascagni,Nicolas Padoy
発行日 2024-07-30 16:40:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク