SurgSora: Decoupled RGBD-Flow Diffusion Model for Controllable Surgical Video Generation

要約

医療ビデオの生成には、正確で制御可能な視覚表現を通じて、外科の理解と病理の洞察を高める変革の可能性があります。
しかし、現在のモデルは制御性と信頼性の点で限界に直面しています。
このギャップを埋めるために、単一の入力フレームとユーザー制御可能なモーション キューを使用するモーション制御可能な手術ビデオ生成フレームワークである SurgSora を提案します。
SurgSora は 3 つの主要なモジュールで構成されています。デュアル セマンティック インジェクター (DSI) は、入力フレームからオブジェクト関連の RGB および深度特徴を抽出し、それらをセグメンテーション キューと統合して、複雑な解剖学的構造の詳細な空間特徴をキャプチャします。
デカップリング フロー マッパー (DFM) は、オプティカル フローとセマンティック RGB-D 機能を複数のスケールで融合し、時間的理解とオブジェクトの空間ダイナミクスを強化します。
軌道コントローラー (TC) は、ユーザーが動きの方向を指定し、まばらなオプティカル フローを推定して、ビデオ生成プロセスをガイドできるようにします。
融合された特徴は、凍結された安定拡散モデルの条件として使用され、現実的で時間的に一貫した手術ビデオを生成します。
広範な評価により、SurgSora が制御性と信頼性において最先端の手法を上回っていることが実証され、医学教育、トレーニング、研究のための手術ビデオ生成を前進させる可能性が示されています。

要約(オリジナル)

Medical video generation has transformative potential for enhancing surgical understanding and pathology insights through precise and controllable visual representations. However, current models face limitations in controllability and authenticity. To bridge this gap, we propose SurgSora, a motion-controllable surgical video generation framework that uses a single input frame and user-controllable motion cues. SurgSora consists of three key modules: the Dual Semantic Injector (DSI), which extracts object-relevant RGB and depth features from the input frame and integrates them with segmentation cues to capture detailed spatial features of complex anatomical structures; the Decoupled Flow Mapper (DFM), which fuses optical flow with semantic-RGB-D features at multiple scales to enhance temporal understanding and object spatial dynamics; and the Trajectory Controller (TC), which allows users to specify motion directions and estimates sparse optical flow, guiding the video generation process. The fused features are used as conditions for a frozen Stable Diffusion model to produce realistic, temporally coherent surgical videos. Extensive evaluations demonstrate that SurgSora outperforms state-of-the-art methods in controllability and authenticity, showing its potential to advance surgical video generation for medical education, training, and research.

arxiv情報

著者 Tong Chen,Shuya Yang,Junyi Wang,Long Bai,Hongliang Ren,Luping Zhou
発行日 2024-12-18 16:34:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM, cs.RO パーマリンク