SurGen: Text-Guided Diffusion Model for Surgical Video Generation

要約

拡散ベースのビデオ生成モデルは大幅な進歩を遂げ、視覚的な忠実度、時間的一貫性、およびユーザー制御が向上した出力を生成します。
これらの進歩は、より現実的で多様なインタラクティブなシミュレーション環境を可能にすることで、外科教育を改善する上で大きな期待を集めています。
この研究では、既存の手術ビデオ生成モデルの中で最高の解像度と最長のビデオを生成する、手術ビデオ合成用に調整されたテキストガイド付き拡散モデルである SurGen を紹介します。
標準の画像およびビデオ生成メトリクスを使用して、出力の視覚的および時間的品質を検証します。
さらに、手術データに基づいてトレーニングされた深層学習分類器を通じて、対応するテキスト プロンプトとの整合性を評価します。
私たちの結果は、拡散モデルが外科研修生にとって貴重な教育ツールとして機能する可能性を示しています。

要約(オリジナル)

Diffusion-based video generation models have made significant strides, producing outputs with improved visual fidelity, temporal coherence, and user control. These advancements hold great promise for improving surgical education by enabling more realistic, diverse, and interactive simulation environments. In this study, we introduce SurGen, a text-guided diffusion model tailored for surgical video synthesis, producing the highest resolution and longest duration videos among existing surgical video generation models. We validate the visual and temporal quality of the outputs using standard image and video generation metrics. Additionally, we assess their alignment to the corresponding text prompts through a deep learning classifier trained on surgical data. Our results demonstrate the potential of diffusion models to serve as valuable educational tools for surgical trainees.

arxiv情報

著者 Joseph Cho,Samuel Schmidgall,Cyril Zakka,Mrudang Mathur,Rohan Shad,William Hiesinger
発行日 2024-08-26 05:38:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク