Event Recognition in Laparoscopic Gynecology Videos with Hybrid Transformers

要約

腹腔鏡手術ビデオの解析は、手術トレーニング、術中手術合併症予測、術後手術評価などの用途で、複雑かつ多面的な課題を提示している。これらのビデオ内の重要なイベントを識別することは、これらのアプリケーションの大部分において重要な前提条件である。本論文では、腹腔鏡下婦人科手術ビデオにおける関連イベント認識のために調整された包括的なデータセットを紹介する。我々のデータセットには、術中の主な課題や術後の合併症に関連する重要なイベントのアノテーションが含まれている。我々のアノテーションの精度を検証するために、いくつかのCNN-RNNアーキテクチャを用いてイベント認識性能を評価する。さらに、腹腔鏡手術ビデオ中の4つの特定のイベントを認識するために、カスタマイズされた学習推論フレームワークと組み合わせたハイブリッドトランスフォーマーアーキテクチャを導入し、評価する。トランスフォーマーネットワークを活用することで、提案するアーキテクチャは、フレーム間の依存関係を利用し、関連するコンテンツのオクルージョン、モーションブラー、手術シーンの変動による悪影響を打ち消し、イベント認識精度を大幅に向上させる。さらに、手術シーンと外科医の熟練度におけるばらつきを管理するように設計されたフレームサンプリング戦略を提示し、高い時間分解能でのイベント認識を実現する。我々は、一連の広範な実験を通じて、従来のCNN-RNNアーキテクチャと比較して、イベント認識における我々の提案手法の優位性を実証的に示す。

要約(オリジナル)

Analyzing laparoscopic surgery videos presents a complex and multifaceted challenge, with applications including surgical training, intra-operative surgical complication prediction, and post-operative surgical assessment. Identifying crucial events within these videos is a significant prerequisite in a majority of these applications. In this paper, we introduce a comprehensive dataset tailored for relevant event recognition in laparoscopic gynecology videos. Our dataset includes annotations for critical events associated with major intra-operative challenges and post-operative complications. To validate the precision of our annotations, we assess event recognition performance using several CNN-RNN architectures. Furthermore, we introduce and evaluate a hybrid transformer architecture coupled with a customized training-inference framework to recognize four specific events in laparoscopic surgery videos. Leveraging the Transformer networks, our proposed architecture harnesses inter-frame dependencies to counteract the adverse effects of relevant content occlusion, motion blur, and surgical scene variation, thus significantly enhancing event recognition accuracy. Moreover, we present a frame sampling strategy designed to manage variations in surgical scenes and the surgeons’ skill level, resulting in event recognition with high temporal resolution. We empirically demonstrate the superiority of our proposed methodology in event recognition compared to conventional CNN-RNN architectures through a series of extensive experiments.

arxiv情報

著者 Sahar Nasirihaghighi,Negin Ghamsarian,Heinrich Husslein,Klaus Schoeffmann
発行日 2023-12-01 13:57:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク