CholecTrack20: A Multi-Perspective Tracking Dataset for Surgical Tools

要約

手術ビデオのツール追跡は、スキル評価、安全ゾーンの推定、人間のコラボレーションなどのコンピューター支援介入を進めるために不可欠です。
ただし、コンテキストが豊富なデータセットの欠如は、このフィールドのAIアプリケーションを制限します。
既存のデータセットは、カメラのビューから移動したりボディから出たりするツールなど、外科的特異的ダイナミクスをキャプチャできない、過度に一般的な追跡形式化に依存しています。
これにより、臨床的に関連性の低い軌道と、実際の外科的応用の柔軟性が不足しています。
これらのデータセットで訓練された方法は、しばしば煙、反射、出血などの視覚的な課題に苦労し、現在のアプローチの制限をさらに明らかにします。
外科的処置におけるマルチクラスのマルチツール追跡のための特殊なデータセットであるCholectrack20を紹介します。
(i)術中、(ii)体内、および(iii)視認性の3つの視点で追跡形式化を再定義し、適応可能で臨床的に意味のあるツール軌跡を可能にします。
データセットには、1 fpsで注釈が付けられた20のフルレングスの手術ビデオで構成され、35kを超えるフレームと65kのラベル付けされたツールインスタンスが生成されます。
注釈には、空間的位置、カテゴリ、アイデンティティ、オペレーター、フェーズ、シーンの視覚的課題が含まれます。
Cholectrack20の最先端のメソッドのベンチマークは、臨床翻訳に必要な精度を満たすことができない現在のアプローチ(<45 \%hota)で、重要なパフォーマンスギャップを明らかにしています。 これらの発見は、高度で直感的な追跡アルゴリズムの必要性を動機付け、堅牢なAI駆動型の手術支援システムを開発するための基盤としてChoLectrack20を確立します。

要約(オリジナル)

Tool tracking in surgical videos is essential for advancing computer-assisted interventions, such as skill assessment, safety zone estimation, and human-machine collaboration. However, the lack of context-rich datasets limits AI applications in this field. Existing datasets rely on overly generic tracking formalizations that fail to capture surgical-specific dynamics, such as tools moving out of the camera’s view or exiting the body. This results in less clinically relevant trajectories and a lack of flexibility for real-world surgical applications. Methods trained on these datasets often struggle with visual challenges such as smoke, reflection, and bleeding, further exposing the limitations of current approaches. We introduce CholecTrack20, a specialized dataset for multi-class, multi-tool tracking in surgical procedures. It redefines tracking formalization with three perspectives: (i) intraoperative, (ii) intracorporeal, and (iii) visibility, enabling adaptable and clinically meaningful tool trajectories. The dataset comprises 20 full-length surgical videos, annotated at 1 fps, yielding over 35K frames and 65K labeled tool instances. Annotations include spatial location, category, identity, operator, phase, and scene visual challenge. Benchmarking state-of-the-art methods on CholecTrack20 reveals significant performance gaps, with current approaches (< 45\% HOTA) failing to meet the accuracy required for clinical translation. These findings motivate the need for advanced and intuitive tracking algorithms and establish CholecTrack20 as a foundation for developing robust AI-driven surgical assistance systems.

arxiv情報

著者 Chinedu Innocent Nwoye,Kareem Elgohary,Anvita Srinivas,Fauzan Zaid,Joël L. Lavanchy,Nicolas Padoy
発行日 2025-03-24 14:12:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク