MeMaHand: Exploiting Mesh-Mano Interaction for Single Image Two-Hand Reconstruction


– 既存の手再構成に関する方法は通常、一般的な3D手のモデルをパラメータ化するか、直接手のメッシュ位置を予測するものです。
– 手形状と回転姿勢からなるパラメトリック表現はより安定していますが、非パラメトリックな方法はより正確なメッシュ位置を予測することができます。
– 本論文では、二種類の手形式の利点を活用するため、単一のRGB画像から二つの手のメッシュを同時に再構成し、MANOパラメータを推定することを提案しています。
– これを達成するために、新しいMesh-Mano相互作用ブロック(MMIB)を提案します。MMIBは、メッシュ頂点位置とMANOパラメータを2種類のクエリトークンとして取り込みます。MMIBには、ローカル情報を集約するためのグラフ残差ブロックと、長距離相互依存性をモデル化するための2つのトランスフォームエンコーダが含まれています。
– トランスフォームエンコーダには、手内および手間の注意をモデル化するために、異なる非対称の注意マスクが与えられています。
– さらに、メッシュアライメントリファインメントモジュールを導入して、メッシュ-画像のアライメントをさらに強化します。
– InterHand2.6Mベンチマーク上の広範な実験で、最新の手再構成方法よりも有望な結果を示しています。


Existing methods proposed for hand reconstruction tasks usually parameterize a generic 3D hand model or predict hand mesh positions directly. The parametric representations consisting of hand shapes and rotational poses are more stable, while the non-parametric methods can predict more accurate mesh positions. In this paper, we propose to reconstruct meshes and estimate MANO parameters of two hands from a single RGB image simultaneously to utilize the merits of two kinds of hand representations. To fulfill this target, we propose novel Mesh-Mano interaction blocks (MMIBs), which take mesh vertices positions and MANO parameters as two kinds of query tokens. MMIB consists of one graph residual block to aggregate local information and two transformer encoders to model long-range dependencies. The transformer encoders are equipped with different asymmetric attention masks to model the intra-hand and inter-hand attention, respectively. Moreover, we introduce the mesh alignment refinement module to further enhance the mesh-image alignment. Extensive experiments on the InterHand2.6M benchmark demonstrate promising results over the state-of-the-art hand reconstruction methods.


著者 Congyi Wang,Feida Zhu,Shilei Wen
発行日 2023-04-17 02:44:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク