Unsupervised domain adaptation for clinician pose estimation and instance segmentation in the operating room

要約

手術室(OR)での臨床医のきめ細かいローカリゼーションは、新世代のORサポートシステムを設計するための重要なコンポーネントです。
ORの臨床活動と空間レイアウトをよりよく理解するには、人物のピクセルベースのセグメンテーションとボディキーポイント検出のためのコンピュータビジョンモデルが必要です。
これは、OR画像が従来のビジョンデータセットとは大きく異なるだけでなく、プライバシーの問題のためにデータと注釈をORで収集および生成するのが難しいために困難です。
これらの懸念に対処するために、最初に、1倍から12倍のダウンサンプリング係数を使用して低解像度画像で共同人物ポーズ推定とインスタンスセグメンテーションを実行する方法を研究します。
次に、ドメインシフトとアノテーションの欠如に対処するために、AdaptORと呼ばれる新しい教師なしドメイン適応方法を提案し、モデルを実際のラベル付きソースドメインから統計的に異なるラベルなしターゲットドメインに適応させます。
ラベルのないターゲットドメイン画像のさまざまな拡張に対する明示的な幾何学的制約を利用して正確な疑似ラベルを生成し、これらの疑似ラベルを使用して、自己トレーニングフレームワークで高解像度および低解像度のOR画像でモデルをトレーニングすることを提案します。
さらに、統計的に異なるソースドメインとターゲットドメインのデータを処理するために、もつれを解いた特徴の正規化を提案します。
2つのORデータセットMVOR+およびTUM-OR-testに関する詳細なアブレーション研究による広範な実験結果は、特に低解像度のプライバシー保護OR画像において、強力に構築されたベースラインに対するアプローチの有効性を示しています。
最後に、大規模なCOCOデータセットでの半教師あり学習(SSL)法としての方法の一般性を示します。ここでは、100%のラベル付き監視でトレーニングされたモデルに対して、わずか1%のラベル付き監視で同等の結果が得られます。

要約(オリジナル)

The fine-grained localization of clinicians in the operating room (OR) is a key component to design the new generation of OR support systems. Computer vision models for person pixel-based segmentation and body-keypoints detection are needed to better understand the clinical activities and the spatial layout of the OR. This is challenging, not only because OR images are very different from traditional vision datasets, but also because data and annotations are hard to collect and generate in the OR due to privacy concerns. To address these concerns, we first study how joint person pose estimation and instance segmentation can be performed on low resolutions images with downsampling factors from 1x to 12x. Second, to address the domain shift and the lack of annotations, we propose a novel unsupervised domain adaptation method, called AdaptOR, to adapt a model from an in-the-wild labeled source domain to a statistically different unlabeled target domain. We propose to exploit explicit geometric constraints on the different augmentations of the unlabeled target domain image to generate accurate pseudo labels and use these pseudo labels to train the model on high- and low-resolution OR images in a self-training framework. Furthermore, we propose disentangled feature normalization to handle the statistically different source and target domain data. Extensive experimental results with detailed ablation studies on the two OR datasets MVOR+ and TUM-OR-test show the effectiveness of our approach against strongly constructed baselines, especially on the low-resolution privacy-preserving OR images. Finally, we show the generality of our method as a semi-supervised learning (SSL) method on the large-scale COCO dataset, where we achieve comparable results with as few as 1% of labeled supervision against a model trained with 100% labeled supervision.

arxiv情報

著者 Vinkle Srivastav,Afshin Gangi,Nicolas Padoy
発行日 2022-06-30 09:54:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク