要約
私たちの研究は、ヘッドマウント デバイス (HMD) の下向きカメラからの自己中心的な人間の姿勢推定の問題に取り組んでいます。
体の一部が画像の外に出たり、遮られたりすることが多いため、これは困難なシナリオになります。
以前のソリューションでは、魚眼カメラ レンズを使用して広い視野をキャプチャすることでこの問題を最小限に抑えていましたが、ハードウェア設計上の問題が発生する可能性があります。
また、ジョイントごとの 2D ヒート マップを予測し、セルフ オクルージョンに対処するために 3D 空間に引き上げますが、これには大規模なネットワーク アーキテクチャが必要となり、リソースに制約のある HMD に展開するのは非現実的です。
従来の直線カメラレンズで撮影した画像から姿勢を予測します。
これにより、ハードウェア設計の問題は解決されますが、ボディパーツがフレームからはみ出すことがよくあることを意味します。
そのため、パラメータ化された身体モデルの行列フィッシャー分布として表される確率的関節回転を直接回帰します。
これにより、姿勢の不確実性を定量化し、フレーム外または閉塞した関節を説明できるようになります。
これにより、2D ヒートマップを計算する必要もなくなり、必要な計算量が少なくなる単純化された DNN アーキテクチャが可能になります。
直線カメラ レンズを使用した自己中心的なデータセットが不足していることを考慮して、ポーズ、形状、服装、肌の色合いの多様性が高い 60K ステレオ画像を含む合成データセットである SynthEgo データセットを紹介します。
私たちのアプローチは、この困難な構成に対して最先端の結果をもたらし、関節ごとの平均位置誤差を全体で 23%、下半身で 58% 削減しました。
また、私たちのアーキテクチャはパラメータが 8 分の 1 に少なく、現在の最先端のものと比べて 2 倍の速度で実行されます。
実験の結果、合成データセットでトレーニングすると、微調整を行わなくても現実世界の画像に適切に一般化できることがわかりました。
要約(オリジナル)
Our work addresses the problem of egocentric human pose estimation from downwards-facing cameras on head-mounted devices (HMD). This presents a challenging scenario, as parts of the body often fall outside of the image or are occluded. Previous solutions minimize this problem by using fish-eye camera lenses to capture a wider view, but these can present hardware design issues. They also predict 2D heat-maps per joint and lift them to 3D space to deal with self-occlusions, but this requires large network architectures which are impractical to deploy on resource-constrained HMDs. We predict pose from images captured with conventional rectilinear camera lenses. This resolves hardware design issues, but means body parts are often out of frame. As such, we directly regress probabilistic joint rotations represented as matrix Fisher distributions for a parameterized body model. This allows us to quantify pose uncertainties and explain out-of-frame or occluded joints. This also removes the need to compute 2D heat-maps and allows for simplified DNN architectures which require less compute. Given the lack of egocentric datasets using rectilinear camera lenses, we introduce the SynthEgo dataset, a synthetic dataset with 60K stereo images containing high diversity of pose, shape, clothing and skin tone. Our approach achieves state-of-the-art results for this challenging configuration, reducing mean per-joint position error by 23% overall and 58% for the lower body. Our architecture also has eight times fewer parameters and runs twice as fast as the current state-of-the-art. Experiments show that training on our synthetic dataset leads to good generalization to real world images without fine-tuning.
arxiv情報
著者 | Hanz Cuevas-Velasquez,Charlie Hewitt,Sadegh Aliakbarian,Tadas Baltrušaitis |
発行日 | 2024-01-26 11:19:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google