要約
ロボット支援手術におけるツールの正確なセグメンテーションは、拡張現実フィードバックを含む多くの下流タスクを容易にするため、機械の認識にとって非常に重要です。
現在のフィードフォワード ニューラル ネットワーク ベースの手法は、理想的な条件下では優れたセグメンテーション パフォーマンスを示しますが、これらのモデルは軽微な破損でも影響を受けやすく、モデルのパフォーマンスを著しく損なうことが判明しています。
この脆弱性は、一か八かの意思決定を行うために予測が使用される可能性がある外科現場で特に問題となります。
非敵対的破損下でのモデルの動作をよりよく理解するために、これまでの研究では、ガウス ノイズやコントラスト摂動などの人為的な破損をテスト セット画像に導入して、モデルの堅牢性を評価することが検討されてきました。
ただし、これらの破損はフォトリアリスティックではないか、モデル/タスクに依存しません。
したがって、これらの調査では、現実的な外科的破損の下でのモデルの劣化について限定的な洞察が得られます。
この制限に対処するために、我々は、煙、出血、低輝度など、予期せぬがもっともらしい手術の画像破損に対して堅牢なアルゴリズムの開発を促進することを目的とした SegSTRONG-C チャレンジを導入します。
私たちは、チャレンジ参加者がアルゴリズムをトレーニングし、バイナリ ロボット ツール セグメンテーション タスク用に写真のようにリアルな非敵対的破損を含むビデオ シーケンスでベンチマークを行うために、破損のない模擬内視鏡ビデオ シーケンスを収集してリリースします。
この新しいベンチマークにより、手術の非敵対的な破損に対するニューラル ネットワークの堅牢性を注意深く研究できるようになり、外科用コンピューター ビジョンのより堅牢なモデルに向けた重要な第一歩となります。
この論文では、データ収集とアノテーションのプロトコル、確立されたセグメンテーション モデルのベースライン評価、およびモデルの堅牢性を強化するためのデータ拡張ベースの手法について説明します。
要約(オリジナル)
Accurate segmentation of tools in robot-assisted surgery is critical for machine perception, as it facilitates numerous downstream tasks including augmented reality feedback. While current feed-forward neural network-based methods exhibit excellent segmentation performance under ideal conditions, these models have proven susceptible to even minor corruptions, significantly impairing the model’s performance. This vulnerability is especially problematic in surgical settings where predictions might be used to inform high-stakes decisions. To better understand model behavior under non-adversarial corruptions, prior work has explored introducing artificial corruptions, like Gaussian noise or contrast perturbation to test set images, to assess model robustness. However, these corruptions are either not photo-realistic or model/task agnostic. Thus, these investigations provide limited insights into model deterioration under realistic surgical corruptions. To address this limitation, we introduce the SegSTRONG-C challenge that aims to promote the development of algorithms robust to unforeseen but plausible image corruptions of surgery, like smoke, bleeding, and low brightness. We collect and release corruption-free mock endoscopic video sequences for the challenge participants to train their algorithms and benchmark them on video sequences with photo-realistic non-adversarial corruptions for a binary robot tool segmentation task. This new benchmark will allow us to carefully study neural network robustness to non-adversarial corruptions of surgery, thus constituting an important first step towards more robust models for surgical computer vision. In this paper, we describe the data collection and annotation protocol, baseline evaluations of established segmentation models, and data augmentation-based techniques to enhance model robustness.
arxiv情報
著者 | Hao Ding,Tuxun Lu,Yuqian Zhang,Ruixing Liang,Hongchao Shu,Lalithkumar Seenivasan,Yonghao Long,Qi Dou,Cong Gao,Mathias Unberath |
発行日 | 2024-07-16 16:50:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google