Dissecting Self-Supervised Learning Methods for Surgical Computer Vision


外科手術用コンピュータビジョンの分野では、近年、ディープニューラルネットワークに基づく手法の人気が高まり、かなりのブレークスルーが起こっている。しかし、このようなモデルを学習するための標準的な完全教師ありアプローチは、膨大な量のアノテーションデータを必要とし、特に臨床領域では法外に高いコストを課している。自己教師あり学習(SSL)法は、一般的なコンピュータビジョンのコミュニティで普及し始めており、ラベル付けされていないデータのみから有用な表現を学習することができるため、これらのアノテーションコストの潜在的な解決策となります。しかし、医学や外科学など、より複雑でインパクトのある領域におけるSSL手法の有効性は、まだ限定的で未解明なままである。本研究では、外科手術用コンピュータビジョンの文脈で4つの最新SSL手法(MoCo v2、SimCLR、DINO、SwAV)を調査することにより、この重要な必要性に対処する。我々は、Cholec80データセット上で、外科的状況理解における2つの基本的かつ一般的なタスク、位相認識と道具の存在検知に対するこれらの手法の性能の広範な分析を提示する。我々は、これらの手法のパラメータ化、そして半教師付き設定における学習データ量に関する挙動を検証する。この研究で説明され実施されたように、これらの方法を手術に正しく移行することで、SSLの一般的な使用に対して、位相認識で最大7%、道具の有無の検出で20%、さらに最新の半教師付き位相認識アプローチに対して最大14%の大幅な性能向上が達成される。コードは、https://github.com/CAMMA-public/SelfSupSurg で公開される予定です。


The field of surgical computer vision has undergone considerable breakthroughs in recent years with the rising popularity of deep neural network-based methods. However, standard fully-supervised approaches for training such models require vast amounts of annotated data, imposing a prohibitively high cost; especially in the clinical domain. Self-Supervised Learning (SSL) methods, which have begun to gain traction in the general computer vision community, represent a potential solution to these annotation costs, allowing to learn useful representations from only unlabeled data. Still, the effectiveness of SSL methods in more complex and impactful domains, such as medicine and surgery, remains limited and unexplored. In this work, we address this critical need by investigating four state-of-the-art SSL methods (MoCo v2, SimCLR, DINO, SwAV) in the context of surgical computer vision. We present an extensive analysis of the performance of these methods on the Cholec80 dataset for two fundamental and popular tasks in surgical context understanding, phase recognition and tool presence detection. We examine their parameterization, then their behavior with respect to training data quantities in semi-supervised settings. Correct transfer of these methods to surgery, as described and conducted in this work, leads to substantial performance gains over generic uses of SSL – up to 7% on phase recognition and 20% on tool presence detection – as well as state-of-the-art semi-supervised phase recognition approaches by up to 14%. The code will be made available at https://github.com/CAMMA-public/SelfSupSurg.


著者 Sanat Ramesh,Vinkle Srivastav,Deepak Alapatt,Tong Yu,Aditya Murali,Luca Sestini,Chinedu Innocent Nwoye,Idris Hamoud,Antoine Fleurentin,Georgios Exarchakis,Alexandros Karargyris,Nicolas Padoy
発行日 2022-07-01 14:17:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク