3D Human Pose Estimation in Multi-View Operating Room Videos Using Differentiable Camera Projections

要約

マルチビューの手術室 (OR) ビデオでの 3D 人間の姿勢推定は、人物追跡と行動認識に関連する資産です。
ただし、手術環境では、無菌の衣服、頻繁な閉塞、および限られた公開データにより、ポーズを見つけることが困難になります。
OR 用に特別に設計された方法は、通常、複数のカメラ ビューで検出されたポーズの融合に基づいています。
通常、畳み込みニューラル ネットワーク (CNN) などの 2D 姿勢推定器が関節の位置を検出します。
次に、検出された関節位置が 3D に投影され、すべてのカメラ ビューに融合されます。
ただし、2D での正確な検出は、3D 空間での正確なローカリゼーションを保証するものではありません。
この作業では、各カメラの投影パラメーターを介して逆伝播される 3D 損失に基づいて 2D CNN をエンドツーエンドでトレーニングすることにより、3D でのローカリゼーションを直接最適化することを提案します。
MVOR データセットのビデオを使用して、このエンドツーエンドのアプローチが 2D 空間での最適化よりも優れていることを示します。

要約(オリジナル)

3D human pose estimation in multi-view operating room (OR) videos is a relevant asset for person tracking and action recognition. However, the surgical environment makes it challenging to find poses due to sterile clothing, frequent occlusions, and limited public data. Methods specifically designed for the OR are generally based on the fusion of detected poses in multiple camera views. Typically, a 2D pose estimator such as a convolutional neural network (CNN) detects joint locations. Then, the detected joint locations are projected to 3D and fused over all camera views. However, accurate detection in 2D does not guarantee accurate localisation in 3D space. In this work, we propose to directly optimise for localisation in 3D by training 2D CNNs end-to-end based on a 3D loss that is backpropagated through each camera’s projection parameters. Using videos from the MVOR dataset, we show that this end-to-end approach outperforms optimisation in 2D space.

arxiv情報

著者 Beerend G. A. Gerats,Jelmer M. Wolterink,Ivo A. M. J. Broeders
発行日 2022-10-21 09:00:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.8 パーマリンク