DiffH2O: Diffusion-Based Synthesis of Hand-Object Interactions from Textual Descriptions

要約

3D で自然な手とオブジェクトのインタラクションを生成することは、結果として得られる手とオブジェクトの動作が物理的に妥当で意味的に意味のあるものであることが期待されるため、困難です。
さらに、目に見えないオブジェクトへの一般化は、利用可能な手とオブジェクトのインタラクション データセットの規模が限られているために妨げられます。
この論文では、提供されたテキスト プロンプトとオブジェクトのジオメトリから、現実的な片手または両手によるオブジェクト インタラクションを合成できる、DiffH2O と呼ばれる新しい方法を提案します。
この手法では、限られたデータから効果的に学習できる 3 つの手法を紹介します。
まず、タスクを把握段階とテキストベースの操作段階に分解し、それぞれに個別の拡散モデルを使用します。
把握段階ではモデルは手の動きのみを生成しますが、操作段階では手とオブジェクトの両方のポーズが合成されます。
次に、手とオブジェクトのポーズを緊密に結合し、現実的な手とオブジェクトの相互作用を生成するのに役立つコンパクトな表現を提案します。
第三に、生成されたモーションをより詳細に制御できるようにする 2 つの異なるガイダンス スキーム、つまり把握ガイダンスと詳細なテキスト ガイダンスを提案します。
把握ガイダンスは、単一のターゲット把握ポーズを取得し、把握ステージの最後にこの把握に到達するように拡散モデルをガイドします。これにより、把握ポーズの制御が可能になります。
この段階で把握動作を行うと、操作フェーズで複数の異なる動作を促すことができます。
テキストによるガイダンスについては、包括的なテキストの説明を GRAB データセットに提供し、それによって私たちの手法が手とオブジェクトの相互作用をよりきめ細かく制御できることを示します。
私たちの定量的および定性的評価は、提案された方法がベースライン方法を上回っており、自然な手とオブジェクトの動きにつながることを示しています。

要約(オリジナル)

Generating natural hand-object interactions in 3D is challenging as the resulting hand and object motions are expected to be physically plausible and semantically meaningful. Furthermore, generalization to unseen objects is hindered by the limited scale of available hand-object interaction datasets. In this paper, we propose a novel method, dubbed DiffH2O, which can synthesize realistic, one or two-handed object interactions from provided text prompts and geometry of the object. The method introduces three techniques that enable effective learning from limited data. First, we decompose the task into a grasping stage and an text-based manipulation stage and use separate diffusion models for each. In the grasping stage, the model only generates hand motions, whereas in the manipulation phase both hand and object poses are synthesized. Second, we propose a compact representation that tightly couples hand and object poses and helps in generating realistic hand-object interactions. Third, we propose two different guidance schemes to allow more control of the generated motions: grasp guidance and detailed textual guidance. Grasp guidance takes a single target grasping pose and guides the diffusion model to reach this grasp at the end of the grasping stage, which provides control over the grasping pose. Given a grasping motion from this stage, multiple different actions can be prompted in the manipulation phase. For the textual guidance, we contribute comprehensive text descriptions to the GRAB dataset and show that they enable our method to have more fine-grained control over hand-object interactions. Our quantitative and qualitative evaluation demonstrates that the proposed method outperforms baseline methods and leads to natural hand-object motions.

arxiv情報

著者 Sammy Christen,Shreyas Hampali,Fadime Sener,Edoardo Remelli,Tomas Hodan,Eric Sauser,Shugao Ma,Bugra Tekin
発行日 2024-12-23 17:36:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG パーマリンク