要約
手術シーンのセグメンテーションは、コンピューター支援の手術で重要であり、手術の質と患者の転帰を高めるために不可欠です。
最近、ターゲットオブジェクトをセグメント化するためのインタラクティブな体験を外科医に提供するという利点を考えると、外科的セグメンテーションを参照することが出現しています。
ただし、既存の方法は、効率が低く、短期追跡によって制限され、複雑な実世界の外科シナリオでの適用性が妨げられます。
このホワイトペーパーでは、resurgsam2を紹介します。これは、モデル2を実行するためにセグメントをテキスト参照ターゲット検出を実行する2段階の外科的参照セグメンテーションフレームワークを紹介し、その後、信頼できる初期フレーム識別と多様性駆動型の長期メモリを追跡します。
検出段階では、正確な検出とセグメンテーションの結果を生成するために、クロスモーダルの空間的時代のマンバを提案します。
これらの結果に基づいて、信頼できる初期フレーム選択戦略は、後続の追跡の信頼できるフレームを識別します。
初期フレームを選択すると、メソッドは追跡段階に移行し、信頼できる多様なメモリバンクを維持する多様性駆動型メモリメカニズムを組み込み、一貫した長期追跡を確保します。
広範な実験は、Resurgsam2が既存の方法と比較して精度と効率を大幅に改善し、61.2 fpsでリアルタイムで動作することを示しています。
コードとデータセットは、https://github.com/jinlab-imvr/resurgsam2で入手できます。
要約(オリジナル)
Surgical scene segmentation is critical in computer-assisted surgery and is vital for enhancing surgical quality and patient outcomes. Recently, referring surgical segmentation is emerging, given its advantage of providing surgeons with an interactive experience to segment the target object. However, existing methods are limited by low efficiency and short-term tracking, hindering their applicability in complex real-world surgical scenarios. In this paper, we introduce ReSurgSAM2, a two-stage surgical referring segmentation framework that leverages Segment Anything Model 2 to perform text-referred target detection, followed by tracking with reliable initial frame identification and diversity-driven long-term memory. For the detection stage, we propose a cross-modal spatial-temporal Mamba to generate precise detection and segmentation results. Based on these results, our credible initial frame selection strategy identifies the reliable frame for the subsequent tracking. Upon selecting the initial frame, our method transitions to the tracking stage, where it incorporates a diversity-driven memory mechanism that maintains a credible and diverse memory bank, ensuring consistent long-term tracking. Extensive experiments demonstrate that ReSurgSAM2 achieves substantial improvements in accuracy and efficiency compared to existing methods, operating in real-time at 61.2 FPS. Our code and datasets will be available at https://github.com/jinlab-imvr/ReSurgSAM2.
arxiv情報
著者 | Haofeng Liu,Mingqi Gao,Xuxiao Luo,Ziyue Wang,Guanyi Qin,Junde Wu,Yueming Jin |
発行日 | 2025-05-13 13:56:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google