Multi-view Video-Pose Pretraining for Operating Room Surgical Activity Recognition

要約

複雑な手術室での外科的処置のワークフローを理解するには、臨床医とその環境間の相互作用を深く理解する必要があります。
外科活動認識(SAR)は、マルチビューカメラの録音から活動または段階を検出する重要なコンピュータービジョンタスクです。
既存のSARモデルは、しっかりとした臨床医の動きとマルチビューの知識を考慮していないことがよくあります。または、より良い結果を得るために、キャリブレーションされたマルチビューカメラのセットアップと高度なポイントクラウド処理が必要です。
この作業では、ビデオポーズ外科活動の認識のためにマルチビュー事前削除と呼ばれる新しいキャリブレーションのないマルチビューマルチビューマルチモーダルプレイフレームワークを提案します。
私たちのモデルは、クリップスタイルのデュアルエンコーダーアーキテクチャに従います。1つのエンコーダーは視覚機能を処理し、もう1つは人間のポーズ埋め込みをエンコードします。
連続2Dヒトポーズ座標を処理するために、連続2Dポーズ座標を離散ポーズ埋め込みに変換するためにトークン化された離散表現を導入し、それによりデュアルエンコーダーフレームワーク内の効率的な統合を可能にします。
これら2つのモダリティ間のギャップを埋めるために、埋め込みスペース内の交差およびモダリティおよび内部の幾何学的制約を使用して、表現学習を強化するためにマスクされたポーズトークン予測戦略を組み込むいくつかの事前トレーニング目標を提案します。
広範な実験とアブレーション研究は強力なベースラインよりも改善を示し、2つの異なるオペレーティングルームデータセットでのデータ効率の実験は、アプローチの有効性をさらに強調しています。
複雑な外科環境での実際的な適用性を紹介するマルチビューとシングルビューの両方の設定での外科活動認識のアプローチの利点を強調します。
コードはhttps://github.com/camma-public/previpsで利用可能になります。

要約(オリジナル)

Understanding the workflow of surgical procedures in complex operating rooms requires a deep understanding of the interactions between clinicians and their environment. Surgical activity recognition (SAR) is a key computer vision task that detects activities or phases from multi-view camera recordings. Existing SAR models often fail to account for fine-grained clinician movements and multi-view knowledge, or they require calibrated multi-view camera setups and advanced point-cloud processing to obtain better results. In this work, we propose a novel calibration-free multi-view multi-modal pretraining framework called Multiview Pretraining for Video-Pose Surgical Activity Recognition PreViPS, which aligns 2D pose and vision embeddings across camera views. Our model follows CLIP-style dual-encoder architecture: one encoder processes visual features, while the other encodes human pose embeddings. To handle the continuous 2D human pose coordinates, we introduce a tokenized discrete representation to convert the continuous 2D pose coordinates into discrete pose embeddings, thereby enabling efficient integration within the dual-encoder framework. To bridge the gap between these two modalities, we propose several pretraining objectives using cross- and in-modality geometric constraints within the embedding space and incorporating masked pose token prediction strategy to enhance representation learning. Extensive experiments and ablation studies demonstrate improvements over the strong baselines, while data-efficiency experiments on two distinct operating room datasets further highlight the effectiveness of our approach. We highlight the benefits of our approach for surgical activity recognition in both multi-view and single-view settings, showcasing its practical applicability in complex surgical environments. Code will be made available at: https://github.com/CAMMA-public/PreViPS.

arxiv情報

著者 Idris Hamoud,Vinkle Srivastav,Muhammad Abdullah Jamal,Didier Mutter,Omid Mohareri,Nicolas Padoy
発行日 2025-02-19 17:08:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク