THOR-Net: End-to-end Graformer-based Realistic Two Hands and Object Reconstruction with Self-supervision

要約

オブジェクトと相互作用する 2 つの手の現実的な再構成は、パーソナライズされた仮想および拡張現実環境を構築するために不可欠な、新しく困難な問題です。
グラフ畳み込みネットワーク (GCN) を使用すると、手のポーズと形状をグラフとしてモデル化することで、それらのトポロジを保存できます。
この作業では、GCN、トランスフォーマー、および自己監視の力を組み合わせて、単一の RGB 画像から 2 つの手とオブジェクトを現実的に再構築する THOR-Net を提案します。
当社のネットワークは 2 つの段階で構成されています。
つまり、特徴抽出段階と再構成段階です。
特徴抽出段階では、Keypoint RCNN を使用して、単眼 RGB 画像から 2D ポーズ、特徴マップ、ヒートマップ、および境界ボックスを抽出します。
その後、この 2D 情報は 2 つのグラフとしてモデル化され、再構成ステージの 2 つのブランチに渡されます。
形状再構築ブランチは、新しい粗から細かい GraFormer 形状ネットワークを使用して、2 つの手とオブジェクトのメッシュを推定します。
手とオブジェクトの 3D ポーズは、GraFormer ネットワークを使用して他のブランチによって再構築されます。
最後に、自己管理型フォトメトリック損失を使用して、手のメッシュの各頂点のリアルなテクスチャを直接回帰します。
私たちのアプローチは、ArtiBoost (10.8mm) を超える HO-3D データセット (10.0mm) での手の形状推定において最先端の結果を達成します。
また、困難な両手とオブジェクト (H2O) データセットでの手の姿勢推定の他の方法を、左側の姿勢で 5 mm、右側の姿勢で 1 mm 上回っています。

要約(オリジナル)

Realistic reconstruction of two hands interacting with objects is a new and challenging problem that is essential for building personalized Virtual and Augmented Reality environments. Graph Convolutional networks (GCNs) allow for the preservation of the topologies of hands poses and shapes by modeling them as a graph. In this work, we propose the THOR-Net which combines the power of GCNs, Transformer, and self-supervision to realistically reconstruct two hands and an object from a single RGB image. Our network comprises two stages; namely the features extraction stage and the reconstruction stage. In the features extraction stage, a Keypoint RCNN is used to extract 2D poses, features maps, heatmaps, and bounding boxes from a monocular RGB image. Thereafter, this 2D information is modeled as two graphs and passed to the two branches of the reconstruction stage. The shape reconstruction branch estimates meshes of two hands and an object using our novel coarse-to-fine GraFormer shape network. The 3D poses of the hands and objects are reconstructed by the other branch using a GraFormer network. Finally, a self-supervised photometric loss is used to directly regress the realistic textured of each vertex in the hands’ meshes. Our approach achieves State-of-the-art results in Hand shape estimation on the HO-3D dataset (10.0mm) exceeding ArtiBoost (10.8mm). It also surpasses other methods in hand pose estimation on the challenging two hands and object (H2O) dataset by 5mm on the left-hand pose and 1 mm on the right-hand pose.

arxiv情報

著者 Ahmed Tawfik Aboukhadra,Jameel Malik,Ahmed Elhayek,Nadia Robertini,Didier Stricker
発行日 2022-10-25 09:18:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク