要約
外科的ビデオ生成は医学教育と研究を強化する可能性がありますが、既存の方法にはきめ細かいモーションコントロールとリアリズムがありません。
Surgsoraを紹介します。これは、単一の入力フレームとユーザー指定のモーションキューから高忠実度、モーション制御可能な外科ビデオを生成するフレームワークを紹介します。
オブジェクトを無差別に処理したり、地上の真実のセグメンテーションマスクに依存している以前のアプローチとは異なり、Surgsoraは自己予測されたオブジェクトの特徴と深さ情報を活用して、RGBの外観と光学フローを正確なビデオ統合に洗練させます。
3つの重要なモジュールで構成されています。(1)デュアルセマンティックインジェクター。オブジェクト固有のRGB-D機能と空間表現を強化するセグメンテーションキューを抽出します。
(2)分離されたフローマッパー。これは、マルチスケールの光学フローを現実的なモーションダイナミクスのセマンティック機能と融合します。
(3)軌道コントローラーは、まばらな光流量を推定し、ユーザーガイド付きオブジェクトの動きを可能にします。
安定したビデオ拡散内でこれらの濃縮された特徴を条件付けることにより、Surgsoraは、広範な定量的および定性的比較によって示されるように、外科的ビデオ統合の進歩において最先端の視覚的信頼性と制御性を実現します。
専門家と協力した人間の評価は、外科的訓練と教育の方法の可能性を強調して、外科手術ビデオの高いリアリズムをさらに実証しています。
当社のプロジェクトは、https://surgsora.github.io/surgsora.github.ioで入手できます。
要約(オリジナル)
Surgical video generation can enhance medical education and research, but existing methods lack fine-grained motion control and realism. We introduce SurgSora, a framework that generates high-fidelity, motion-controllable surgical videos from a single input frame and user-specified motion cues. Unlike prior approaches that treat objects indiscriminately or rely on ground-truth segmentation masks, SurgSora leverages self-predicted object features and depth information to refine RGB appearance and optical flow for precise video synthesis. It consists of three key modules: (1) the Dual Semantic Injector, which extracts object-specific RGB-D features and segmentation cues to enhance spatial representations; (2) the Decoupled Flow Mapper, which fuses multi-scale optical flow with semantic features for realistic motion dynamics; and (3) the Trajectory Controller, which estimates sparse optical flow and enables user-guided object movement. By conditioning these enriched features within the Stable Video Diffusion, SurgSora achieves state-of-the-art visual authenticity and controllability in advancing surgical video synthesis, as demonstrated by extensive quantitative and qualitative comparisons. Our human evaluation in collaboration with expert surgeons further demonstrates the high realism of SurgSora-generated videos, highlighting the potential of our method for surgical training and education. Our project is available at https://surgsora.github.io/surgsora.github.io.
arxiv情報
著者 | Tong Chen,Shuya Yang,Junyi Wang,Long Bai,Hongliang Ren,Luping Zhou |
発行日 | 2025-06-18 04:36:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google