G-HOP: Generative Hand-Object Prior for Interaction Reconstruction and Grasp Synthesis

要約

我々は、手とオブジェクトのインタラクションのためのノイズ除去拡散ベースの事前生成手法である G-HOP を提案します。これにより、オブジェクト カテゴリに基づいて 3D オブジェクトと人間の手の両方をモデリングできます。
この結合分布を捕捉できる 3D 空間拡散モデルを学習するために、骨格距離フィールドを介して人間の手を表現し、オブジェクトの (潜在的な) 符号付き距離フィールドと一致する表現を取得します。
この手オブジェクト プライアが、インタラクション クリップからの再構成や人間の把握の合成などの他のタスクを容易にするための一般的なガイダンスとして機能することを示します。
私たちは、155 カテゴリにわたる 7 つの多様な現実世界のインタラクション データセットを集約してトレーニングされたモデルが、手とオブジェクトの両方を共同生成できる最初のアプローチであると考えています。
私たちの経験的評価では、ビデオベースの再構成と人間による把握の合成において、このジョイント プリアの利点が実証されており、現在のタスク固有のベースラインを上回っています。
プロジェクト Web サイト: https://judyye.github.io/ghop-www

要約(オリジナル)

We propose G-HOP, a denoising diffusion based generative prior for hand-object interactions that allows modeling both the 3D object and a human hand, conditioned on the object category. To learn a 3D spatial diffusion model that can capture this joint distribution, we represent the human hand via a skeletal distance field to obtain a representation aligned with the (latent) signed distance field for the object. We show that this hand-object prior can then serve as generic guidance to facilitate other tasks like reconstruction from interaction clip and human grasp synthesis. We believe that our model, trained by aggregating seven diverse real-world interaction datasets spanning across 155 categories, represents a first approach that allows jointly generating both hand and object. Our empirical evaluations demonstrate the benefit of this joint prior in video-based reconstruction and human grasp synthesis, outperforming current task-specific baselines. Project website: https://judyye.github.io/ghop-www

arxiv情報

著者 Yufei Ye,Abhinav Gupta,Kris Kitani,Shubham Tulsiani
発行日 2024-04-18 17:59:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク