OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding

要約

ビデオによる手術シーンの認識は、特に眼科におけるロボット手術、遠隔手術、AI 支援手術の進歩にとって重要です。
しかし、多様で豊富に注釈が付けられたビデオ データセットが不足しているため、外科ワークフロー分析用のインテリジェント システムの開発が妨げられています。
外科ワークフロー分析用の既存のデータセットは、通常、規模が小さい、手術とフェーズのカテゴリーの多様性の欠如、時間ローカライズされた注釈の欠如などの課題に直面しており、複雑で多様な現実の現場でのアクションの理解とモデルの一般化検証の要件が制限されています。
-世界の手術シナリオ。
このギャップに対処するために、眼科手術のワークフローを理解するための大規模な専門家による注釈付きビデオ ベンチマークである OphNet を導入します。
OphNet の特徴: 1) 66 種類の白内障、緑内障、角膜手術にわたる 2,278 件の手術ビデオの多様なコレクション。102 の固有の手術段階と 150 の詳細な手術に対する詳細な注釈が付いています。
2) 各手術、フェーズ、および手術に対して連続的かつ階層的な注釈を提供し、包括的な理解を可能にし、解釈可能性を向上させます。
3) さらに、OphNet は時間ローカライズされた注釈を提供し、外科ワークフロー内の時間ローカライズと予測タスクを容易にします。
約 205 時間の手術ビデオを収録した OphNet は、既存の最大の手術ワークフロー分析ベンチマークの約 20 倍の大きさです。
データセットとコードは、\url{https://github.com/minghu0830/OphNet-benchmark} から入手できます。

要約(オリジナル)

Surgical scene perception via videos are critical for advancing robotic surgery, telesurgery, and AI-assisted surgery, particularly in ophthalmology. However, the scarcity of diverse and richly annotated video datasets has hindered the development of intelligent systems for surgical workflow analysis. Existing datasets for surgical workflow analysis, which typically face challenges such as small scale, a lack of diversity in surgery and phase categories, and the absence of time-localized annotations, limit the requirements for action understanding and model generalization validation in complex and diverse real-world surgical scenarios. To address this gap, we introduce OphNet, a large-scale, expert-annotated video benchmark for ophthalmic surgical workflow understanding. OphNet features: 1) A diverse collection of 2,278 surgical videos spanning 66 types of cataract, glaucoma, and corneal surgeries, with detailed annotations for 102 unique surgical phases and 150 granular operations; 2) It offers sequential and hierarchical annotations for each surgery, phase, and operation, enabling comprehensive understanding and improved interpretability; 3) Moreover, OphNet provides time-localized annotations, facilitating temporal localization and prediction tasks within surgical workflows. With approximately 205 hours of surgical videos, OphNet is about 20 times larger than the largest existing surgical workflow analysis benchmark. Our dataset and code have been made available at: \url{https://github.com/minghu0830/OphNet-benchmark}.

arxiv情報

著者 Ming Hu,Peng Xia,Lin Wang,Siyuan Yan,Feilong Tang,Zhongxing Xu,Yimin Luo,Kaimin Song,Jurgen Leitner,Xuelian Cheng,Jun Cheng,Chi Liu,Kaijing Zhou,Zongyuan Ge
発行日 2024-06-11 17:18:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク