Bring Your Rear Cameras for Egocentric 3D Human Pose Estimation

要約

エゴセントリック3Dヒトポーズ推定は、ヘッドマウントデバイス(HMD)の前に設置されたカメラを使用して積極的に研究されています。
正面配置は最適であり、手の追跡などの一部のタスクの唯一のオプションですが、自己閉鎖と視野のフィールドカバレッジが限られているため、全身追跡についても同じものが保持されるかどうかは不明のままです。
特に、最先端の方法でさえ、HMDユーザーが頭を上に傾けるときなど、多くのシナリオで正確な3Dポーズを推定できないことがよくあります(人間の活動での共通の動き)。
既存のHMDデザインの重要な制限は、重要な3D再構成の手がかりを提供する可能性があるにもかかわらず、身体の背中を無視することです。
したがって、このペーパーでは、全身追跡のためのHMD設計におけるリアカメラの有用性を調査します。
また、正面入力に後部ビューを追加するだけで、効果的なマルチビュー統合なしで個々の2Dジョイント検出器への依存度があるため、既存の方法には最適ではないことも示しています。
この問題に対処するために、マルチビュー情報とヒートマップの不確実性を備えた2Dジョイントヒートマップの推定を改良する新しい変圧器ベースの方法を提案し、それにより3Dポーズ追跡を改善します。
さらに、リアビュー評価のために、2つの新しい大規模なデータセット、ego4view-synとego4view-rwを紹介します。
私たちの実験は、バックビューを備えた新しいカメラ構成が、正面の配置のみと比較して3Dポーズ追跡を優れたサポートを提供することを示しています。
提案された方法は、現在の最新技術よりも大幅に改善されています(MPJPEで10%以上)。
プロジェクトページhttps://4dqv.mpi-inf.mpg.de/egorear/でソースコード、トレーニングモデル、および新しいデータセットをリリースします。

要約(オリジナル)

Egocentric 3D human pose estimation has been actively studied using cameras installed in front of a head-mounted device (HMD). While frontal placement is the optimal and the only option for some tasks, such as hand tracking, it remains unclear if the same holds for full-body tracking due to self-occlusion and limited field-of-view coverage. Notably, even the state-of-the-art methods often fail to estimate accurate 3D poses in many scenarios, such as when HMD users tilt their heads upward (a common motion in human activities). A key limitation of existing HMD designs is their neglect of the back of the body, despite its potential to provide crucial 3D reconstruction cues. Hence, this paper investigates the usefulness of rear cameras in the HMD design for full-body tracking. We also show that simply adding rear views to the frontal inputs is not optimal for existing methods due to their dependence on individual 2D joint detectors without effective multi-view integration. To address this issue, we propose a new transformer-based method that refines 2D joint heatmap estimation with multi-view information and heatmap uncertainty, thereby improving 3D pose tracking. Moreover, we introduce two new large-scale datasets, Ego4View-Syn and Ego4View-RW, for a rear-view evaluation. Our experiments show that the new camera configurations with back views provide superior support for 3D pose tracking compared to only frontal placements. The proposed method achieves significant improvement over the current state of the art (>10% on MPJPE). We will release the source code, trained models, and new datasets on our project page https://4dqv.mpi-inf.mpg.de/EgoRear/.

arxiv情報

著者 Hiroyasu Akada,Jian Wang,Vladislav Golyanik,Christian Theobalt
発行日 2025-03-14 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク