CG-HOI: Contact-Guided 3D Human-Object Interaction Generation

要約

我々は、テキストから動的な 3D 人間とオブジェクトのインタラクション (HOI) を生成するタスクに対処する最初の方法である CG-HOI を提案します。
意味的に豊かな人間の動作が相互作用なしに単独で発生することはほとんどないため、人間と物体の両方の動作を相互依存的な方法でモデル化します。
私たちの重要な洞察は、人体の表面と物体の幾何学形状の間の接触を明示的にモデル化することは、トレーニング中と推論中の両方で強力な代理ガイダンスとして使用できるということです。
このガイダンスを使用して人間と物体の動きを橋渡しすると、人体と対応する物体が一貫して動く、より現実的で物理的に妥当なインタラクション シーケンスを生成できます。
私たちの方法はまず、共同拡散プロセスにおける人間の動き、物体の動き、接触をモデル化することを学習し、相互注意を通じて相互に相関させます。
次に、この学習された接触を推論中のガイダンスとして活用し、現実的で一貫した HOI を合成します。
広範な評価により、共同接触ベースの人間とオブジェクトの相互作用アプローチが現実的かつ物理的に妥当なシーケンスを生成することが示され、私たちの手法の機能を強調する 2 つのアプリケーションを示します。
特定のオブジェクトの軌道を条件にすると、再トレーニングせずに対応する人間の動作を生成でき、人間とオブジェクトの強力な相互依存性学習が実証されます。
私たちのアプローチは柔軟であり、静的な現実世界の 3D シーン スキャンにも適用できます。

要約(オリジナル)

We propose CG-HOI, the first method to address the task of generating dynamic 3D human-object interactions (HOIs) from text. We model the motion of both human and object in an interdependent fashion, as semantically rich human motion rarely happens in isolation without any interactions. Our key insight is that explicitly modeling contact between the human body surface and object geometry can be used as strong proxy guidance, both during training and inference. Using this guidance to bridge human and object motion enables generating more realistic and physically plausible interaction sequences, where the human body and corresponding object move in a coherent manner. Our method first learns to model human motion, object motion, and contact in a joint diffusion process, inter-correlated through cross-attention. We then leverage this learned contact for guidance during inference to synthesize realistic and coherent HOIs. Extensive evaluation shows that our joint contact-based human-object interaction approach generates realistic and physically plausible sequences, and we show two applications highlighting the capabilities of our method. Conditioned on a given object trajectory, we can generate the corresponding human motion without re-training, demonstrating strong human-object interdependency learning. Our approach is also flexible, and can be applied to static real-world 3D scene scans.

arxiv情報

著者 Christian Diller,Angela Dai
発行日 2024-05-17 15:00:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.2.10 パーマリンク