DiffH2O: Diffusion-Based Synthesis of Hand-Object Interactions from Textual Descriptions

要約

3D で自然な手とオブジェクトのインタラクションを生成することは、結果として得られる手とオブジェクトの動作が物理的に妥当で意味的に意味のあるものであることが期待されるため、困難です。
さらに、目に見えないオブジェクトへの一般化は、利用可能な手とオブジェクトのインタラクション データセットの規模が限られているために妨げられます。
私たちは、提供されたテキスト プロンプトとオブジェクトのジオメトリから現実的な片手または両手によるオブジェクト インタラクションを合成する新しい方法である DiffH2O を提案します。
この手法では、限られたデータから効果的に学習できる 3 つの手法を紹介します。
まず、タスクを把握段階とテキストベースの対話段階に分解し、それぞれに個別の拡散モデルを使用します。
把握段階ではモデルは手の動きのみを生成しますが、インタラクション段階では手とオブジェクトの両方のポーズが合成されます。
第 2 に、手とオブジェクトのポーズを密接に結合したコンパクトな表現を提案します。
第三に、生成されたモーションをより詳細に制御できるようにする 2 つの異なるガイダンス スキーム、つまり把握ガイダンスと詳細なテキスト ガイダンスを提案します。
把握ガイダンスは、単一のターゲット把握ポーズを取得し、把握ステージの最後にこの把握に到達するように拡散モデルをガイドします。これにより、把握ポーズの制御が可能になります。
この段階で把握動作を行うと、インタラクションフェーズで複数の異なるアクションを促すことができます。
テキストによるガイダンスについては、包括的なテキストの説明を GRAB データセットに提供し、それによって私たちの手法が手とオブジェクトの相互作用をよりきめ細かく制御できることを示します。
私たちの定量的および定性的評価は、提案された方法がベースライン方法を上回っており、自然な手とオブジェクトの動きをもたらすことを示しています。
さらに、既製の姿勢推定器からの手姿勢推定をガイダンスとして利用し、インタラクション段階で複数の異なるアクションをサンプリングすることで、フレームワークの実用性を実証します。

要約(オリジナル)

Generating natural hand-object interactions in 3D is challenging as the resulting hand and object motions are expected to be physically plausible and semantically meaningful. Furthermore, generalization to unseen objects is hindered by the limited scale of available hand-object interaction datasets. We propose DiffH2O, a novel method to synthesize realistic, one or two-handed object interactions from provided text prompts and geometry of the object. The method introduces three techniques that enable effective learning from limited data. First, we decompose the task into a grasping stage and a text-based interaction stage and use separate diffusion models for each. In the grasping stage, the model only generates hand motions, whereas in the interaction phase both hand and object poses are synthesized. Second, we propose a compact representation that tightly couples hand and object poses. Third, we propose two different guidance schemes to allow more control of the generated motions: grasp guidance and detailed textual guidance. Grasp guidance takes a single target grasping pose and guides the diffusion model to reach this grasp at the end of the grasping stage, which provides control over the grasping pose. Given a grasping motion from this stage, multiple different actions can be prompted in the interaction phase. For textual guidance, we contribute comprehensive text descriptions to the GRAB dataset and show that they enable our method to have more fine-grained control over hand-object interactions. Our quantitative and qualitative evaluation demonstrates that the proposed method outperforms baseline methods and leads to natural hand-object motions. Moreover, we demonstrate the practicality of our framework by utilizing a hand pose estimate from an off-the-shelf pose estimator for guidance, and then sampling multiple different actions in the interaction stage.

arxiv情報

著者 Sammy Christen,Shreyas Hampali,Fadime Sener,Edoardo Remelli,Tomas Hodan,Eric Sauser,Shugao Ma,Bugra Tekin
発行日 2024-03-26 16:06:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG パーマリンク