RSB-Pose: Robust Short-Baseline Binocular 3D Human Pose Estimation with Occlusion Handling

要約

日常的に広く応用されている 3D 人間の姿勢推定の分野では、便利な取得装置に対する要求が高まり続けています。
この需要を満たすために、私たちは携帯性と、奥行きのあいまいさを根本的に軽減する幾何学的測定特性の両方を提供する短い基線の双眼鏡設定に焦点を当てました。
しかし、両眼の基線が短くなるにつれて、2 つの深刻な課題が生じます。1 つは、2D エラーに対する 3D 再構成の堅牢性が低下することです。
第 2 に、2 つのビュー間の視覚的な違いが限られているため、オクルージョンが再発します。
最初の課題に対処するために、2D キーポイントのビューの一貫性を改善し、3D の堅牢性を強化するステレオ共通キーポイント推定モジュールを提案します。
このモジュールでは、視差を利用して両眼の 2D 点の対応を表現し、異なる視差にわたる両眼の特徴を含めるためにステレオ ボリューム フィーチャが導入されます。
SVF の回帰を通じて、2 つのビューの 2D キーポイントが協調的な方法で同時に推定され、ビューの一貫性が制限されます。
さらに、オクルージョンに対処するために、Pre-trained Pose Transformer モジュールが導入されています。
このモジュールを通じて、3D ポーズは、関節の相関関係の表現であるポーズの一貫性を認識することによって洗練されます。
この認識は Pose Transformer ネットワークによって注入され、マスクされたジョイントを反復的に回復する事前トレーニング タスクを通じて学習されます。
H36M および MHAD データセットに対して実行され、視覚化によって補完された包括的な実験により、短いベースラインの両眼 3D 人間姿勢推定とオクルージョン処理におけるアプローチの有効性が検証されます。

要約(オリジナル)

In the domain of 3D Human Pose Estimation, which finds widespread daily applications, the requirement for convenient acquisition equipment continues to grow. To satisfy this demand, we set our sights on a short-baseline binocular setting that offers both portability and a geometric measurement property that radically mitigates depth ambiguity. However, as the binocular baseline shortens, two serious challenges emerge: first, the robustness of 3D reconstruction against 2D errors deteriorates; and second, occlusion reoccurs due to the limited visual differences between two views. To address the first challenge, we propose the Stereo Co-Keypoints Estimation module to improve the view consistency of 2D keypoints and enhance the 3D robustness. In this module, the disparity is utilized to represent the correspondence of binocular 2D points and the Stereo Volume Feature is introduced to contain binocular features across different disparities. Through the regression of SVF, two-view 2D keypoints are simultaneously estimated in a collaborative way which restricts their view consistency. Furthermore, to deal with occlusions, a Pre-trained Pose Transformer module is introduced. Through this module, 3D poses are refined by perceiving pose coherence, a representation of joint correlations. This perception is injected by the Pose Transformer network and learned through a pre-training task that recovers iterative masked joints. Comprehensive experiments carried out on H36M and MHAD datasets, complemented by visualizations, validate the effectiveness of our approach in the short-baseline binocular 3D Human Pose Estimation and occlusion handling.

arxiv情報

著者 Xiaoyue Wan,Zhuo Chen,Yiming Bao,Xu Zhao
発行日 2024-08-06 16:36:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク