要約
この作品は、ステレオカメラから完全な3D手のポーズを推定するためのエンドツーエンドのアプローチを提案します。
ステレオカメラから手のポーズを推定する既存の方法のほとんどは、ステレオマッチングを適用して深度マップを取得し、深度ベースのソリューションを使用して手のポーズを推定します。
対照的に、ステレオマッチングをバイパスし、ステレオ画像ペアから3D手のポーズを直接推定することを提案します。
提案されたニューラルネットワークアーキテクチャは、任意のキーポイント予測子から拡張され、手関節のまばらな視差を推定します。
モデルを効果的にトレーニングするために、ステレオ画像ペアとグラウンドトゥルース3D手のポーズ注釈で構成される大規模な合成データセットを提案します。
実験は、提案されたアプローチがステレオ深度に基づく既存の方法よりも優れていることを示しています。
要約(オリジナル)
This work proposes an end-to-end approach to estimate full 3D hand pose from stereo cameras. Most existing methods of estimating hand pose from stereo cameras apply stereo matching to obtain depth map and use depth-based solution to estimate hand pose. In contrast, we propose to bypass the stereo matching and directly estimate the 3D hand pose from the stereo image pairs. The proposed neural network architecture extends from any keypoint predictor to estimate the sparse disparity of the hand joints. In order to effectively train the model, we propose a large scale synthetic dataset that is composed of stereo image pairs and ground truth 3D hand pose annotations. Experiments show that the proposed approach outperforms the existing methods based on the stereo depth.
arxiv情報
著者 | Yuncheng Li,Zehao Xue,Yingying Wang,Liuhao Ge,Zhou Ren,Jonathan Rodriguez |
発行日 | 2022-06-03 04:18:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google