Mask2Hand: Learning to Predict the 3D Hand Pose and Shape from Shadow

要約

我々は、自己学習可能な手法であるMask2Handを発表する。この手法は、手のシルエット/影の2次元バイナリマスクから3Dの手の姿勢と形状を予測するという難しい課題を、追加の手動注釈データ無しで解決するために学習するものである。カメラ空間における固有のカメラパラメータとパラメトリックな手のモデルが与えられたとき、3D推定値を2Dのバイナリシルエット空間に投影するために、微分可能なレンダリング技術を採用する。レンダリングされたシルエットと入力されたバイナリマスクの間の損失の組み合わせを調整したものを適用することにより、グローバルメッシュ登録と手の姿勢推定を制約するためのエンドツーエンドの最適化プロセスに自己誘導機構を統合することが可能となる。実験によると、単一のバイナリマスクを入力とする我々の手法は、RGBまたは深度入力を必要とする最先端の手法と同等の予測精度を、非整列および整列設定の両方で達成できることが示された。我々のコードは https://github.com/lijenchang/Mask2Hand で公開されている。

要約(オリジナル)

We present a self-trainable method, Mask2Hand, which learns to solve the challenging task of predicting 3D hand pose and shape from a 2D binary mask of hand silhouette/shadow without additional manually-annotated data. Given the intrinsic camera parameters and the parametric hand model in the camera space, we adopt the differentiable rendering technique to project 3D estimations onto the 2D binary silhouette space. By applying a tailored combination of losses between the rendered silhouette and the input binary mask, we are able to integrate the self-guidance mechanism into our end-to-end optimization process for constraining global mesh registration and hand pose estimation. The experiments show that our method, which takes a single binary mask as the input, can achieve comparable prediction accuracy on both unaligned and aligned settings as state-of-the-art methods that require RGB or depth inputs. Our code is available at https://github.com/lijenchang/Mask2Hand.

arxiv情報

著者 Li-Jen Chang,Yu-Cheng Liao,Chia-Hui Lin,Hwann-Tzong Chen
発行日 2022-07-01 10:39:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク